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内 容 提 要 


与 传统 的 关系 型 数据 库 不 同 ，MongoDB 是 一 种 面向 文档 的 数据 库 。 本 书 这 一 版 共 分 为 六 部 
分 ， 涵 盖 开 发 、 管 理 以 及 部 署 的 各 个 方面 。 第 一 部 分 展示 MongoDB 基础 知识 、 核 心 概念 。 第 
二 部 分 介绍 使 用 MongoDB 进行 开发 ， 包 括 索引 的 概念 以 及 各 种 特殊 索引 和 集合 的 用 法 等 。 第 
三 部 分 讲述 复制 ， 包 括 副本 集 的 相关 概念 、 创 建 方法 ， 与 应 用 程序 的 交互 等 。 第 四 部 讨论 分 片 ， 
包括 分 片 的 配置 ， 片 键 的 选择 ， 集 群 的 管理 。 第 五 部 分 阐述 创建 索引 、 移 动 和 压缩 数据 等 管理 
任务 ， 以 及 MongoDB 的 持久 数据 存储 。 最 后 一 部 分 集中 说 明 服 务 器 管理 。 

本 书 适 合 数据 库 开 发 和 管理 人 员 阅 读 。 
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10 年 前 ， 没 人 能 预见 互联 网 的 发 展会 给 关系 型 数据 库 带 来 如 此 多 的 挑战 。 在 此 期 
间 ， 我 亲身 经 历 了 在 快速 发 展 的 大 型 互联 网 公司 应 用 MySQL 的 过 程 。 开 始 时 只 
有 很 少 的 数据 ， 一 台 服 务 器 就 可 以 了 。 然 后 就 得 建立 备份 ， 以 便 应 对 大 量 的 读 取 
和 不 时 的 宕 机 。 用 不 了 多 长 时 间 ， 就 得 加 一 个 缓存 层 ， 调 整 所 有 的 查询 ， 投 入 更 
多 的 硬件 。 


最 后 ， 你 会 发 现 自己 需要 将 数据 切 分 到 多 个 集群 上 ， 并 重新 构建 大 量 的 应 用 逻辑 以 
适应 这 种 切 分 。 之 后 不 和 久 ， 你 又 会 发 现 被 自己 数 月 前 设计 的 数据 库 结 构 限 制 住 了 。 


怎么 会 呢 ? 这 是 因为 现在 集群 中 的 数据 太 多 ， 需 要 更 改 模式 ， 会 花费 很 长 时 间 ， 也 
需要 DBA 投入 相当 多 的 宝贵 时 间 。 在 代码 中 处 理 要 简单 一 些 ， 但 也 需要 小 型 开发 
团队 数 月 的 努力 。 最 后 ， 你 会 不 断 地 拷问 自己 有 没有 更 好 的 方法 ， 或 者 为 什么 没有 
在 核心 数据 库 服务 器 中 内 置 更 多 此 类 功能 。 


为 了 应 对 现在 Web 应 用 的 数据 膨胀 ， 开 源 社区 像 以 往 一 样 提 供 了 太 多 的 “好 方法 ”。 
从 内 存 中 的 键 值 型 存储 到 可 以 使 用 SQL 的 MySQL/InnoDB 变种 等 复杂 方法 ， 无 所 
不 有 。 但 选择 多 了 ， 做 出 正确 的 选择 反而 更 难 了 。 我 自己 就 研究 过 其 中 很 多 种 。 


MongoDB 的 实用 性 着 实 令 人 着 迷 。MongoDB 并 不 去 迎合 所 有 人 的 全 部 需求 。 它 在 
功能 和 复杂 性 之 间 取 得 了 很 好 的 平衡 ， 并 且 大 大 简化 了 原先 十 分 复杂 的 任务 。 也 就 
是 说 ， 它 具备 支撑 今天 主流 Web 应 用 的 关键 功能 : 索引 、 复 制 、 分 片 、 丰 富 的 查询 
语法 ， 特 别 灵活 的 数据 模型 。 与 此 同时 还 不 牺牲 速度 。 

秉持 MongoDB 自身 的 风格 ， 本 书简 洁 明 快 、 通 俗 易 懂 。MongoDB 新 用 户 通过 阅读 


第 1 章 ， 马 上 就 能 入 门 ， 而 有 经 验 的 用 户 则 可 以 体验 到 本 书 的 广度 和 权威 性 。 对 于 
流行 的 客户 端 API 和 高 级 的 管理 主题 ， 如 复制 、 备 份 和 分 片 ， 本 书 都 是 权威 参考 。 
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根据 我 最 近 每 天 使 用 MongoDB 的 经 验 ， 我 相信 本 书 会 始终 不 离 我 左右 ， 从 最 初 安 
装 到 进行 分 片 或 备份 式 集群 的 产品 化 部 署 ， 它 都 是 我 最 好 的 助手 。 任 何 想 仔 细 研 究 
使 用 MongoDB 的 人 都 需要 这 本 重要 的 参考 书 。 








Craigslist 软件 工程 师 ，Jeremy Zawodny 


2010 年 8 月 
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本 书 的 组 织 结构 


本 书 分 为 六 个 部 分 ， 涵 盖 了 开发 、 管 理 以 及 部 署 的 方方面面 。 


熟悉 MongoDB 

第 1 章 将 简要 讲述 MongoDB 的 背景 : 项 目 创 立 原因 ， 和 希望 达到 的 目标 ， 选 用 它 的 
理由 。 第 2 章 接着 介绍 一 些 MongoDB 的 核心 概念 和 术语 ， 还 有 如 何 上 手 操作 数据 
库 和 shell 的 相关 内 容 。 接 下 来 两 章 介 绍 MongoDB 开发 者 需要 掌握 的 基础 知识 。 第 
3 章 展 示 如 何 执行 基本 的 写 和 操作， 包括 在 不 同安 全 和 速度 等 级 下 的 实现 细节 。 第 4 
章 主要 介绍 如 何 查找 文档 和 创建 复杂 的 查询 。 这 一 章 还 包括 如 何 迭 代 结 果 集 和 其 他 
一 些 用 于 处 理 结 果 集 的 方法 ， 比 如 限制 结果 集 的 数量 ， 略 过 一 些 结 果 ， 以 及 对 结果 
集 排 序 。 














使 用 MongoDB 进 行 开 发 

第 5 章 将 介绍 什么 是 索引 以 及 如 何 为 MongoDB 的 集合 建立 索引 。 第 6 章 说 明 如 何 使 
用 各 种 特殊 类 型 的 索引 和 集合 。 第 7 章 展 示 一 些 利 用 MongoDB 聚集 数据 的 方法 ， 包 
括 计 数 、 查 找 唯 一 值 、 文 档 分 组 、 聚 合 框架 和 MapReduce。 这 一 部 分 的 最 后 一 章 会 
介绍 如 何 设计 应 用 程序 : 第 8 章 讲 述 如 何 更 好 地 在 应 用 程序 中 使 用 MongoDB。 


复制 

第 9 章 开始 介绍 复制 ， 着 重 讲述 如 何 快速 在 本 地 建立 一 个 副本 集 ， 还 会 介绍 一 些 可 
用 选项 。 第 10 章 涵 盖 了 与 副本 集 相 关 的 一 些 概念 。 第 11 章 展 示 了 副本 集 与 应 用 程 
序 的 交互 。 第 12 章 从 管理 的 角度 介绍 副本 集 的 运行 。 
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分 所 

第 13 章 开始 介绍 分 片 ， 并 通过 一 个 例子 展示 如 何 快速 地 在 本 地 进行 分 片 。 第 14 章 
介绍 集群 的 组 成 以 及 设置 。 第 15 章 介绍 如 何 为 不 同 的 应 用 程序 选择 合适 的 片 键 。 最 
后 ， 第 16 章 介绍 分 片 集群 的 管理 。 











应 用 程序 管理 
接 下 来 两 章 从 应 用 程序 的 角度 介绍 MongoDB 管理 的 很 多 方面 。 第 17 章 讲述 如 何 查 
看 MongoDB 正在 进行 的 操作 。 第 18 章 介绍 一 些 管理 任务 ， 比 如 创建 索引 、 移 动 和 
压缩 数据 。 第 19 章 介 绍 MongoDB 的 持久 数据 存储 。 








服务 器 管理 

最 后 一 部 分 集中 介绍 服务 器 管理 。 第 20 章 将 给 出 启动 和 终止 MongoDB 时 的 一 些 通 
用 选项 。 第 21 章 讨论 在 监控 数据 库 运 行 时 如 何 查看 监控 信息 。 第 22 章 介绍 在 不 同 
类 型 的 部 署 中 如 何 备份 和 恢复 数据 库 。 最 后 ， 第 23 章 将 介绍 部 署 MongoDB 时 需要 
牢记 于 心 的 一 些 系统 设置 。 


附录 

附录 A 介绍 了 MongoDB 的 版 本 控制 方案 ， 以 及 在 Windows、OS X 和 Linux 上 的 
安装 细节 。 附 录 B 详细 说 明了 MongoDB 的 内 部 工作 原理 : 存储 3 引擎、 数据 格式 和 
传输 协议 。 


本 书 排版 规范 
本 书 使 用 的 排版 规范 如 下 所 示 。 
楷体 

用 于 表示 新 的 术语 。 
































表示 程序 片段 ， 也 在 段落 中 表示 程序 中 使 用 的 变量 、 国 数 名 、 命 令 行 实用 工具 、 
环境 变量 、 语 句 和 关键 字 等 元 素 。 


用 户 需要 根据 自己 提供 的 值 或 由 上 下 文 确定 的 值 进行 更 改 的 部 分 。 
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这 个 图 标 代 表 小 窍门 、 建 议 或 说 明 。 














下。 这 个 图 标 代表 各 各 信息 ， 
使 用 代码 示例 


让 本 书 助 你 一 辟 之 力 。 也 许 你 要 在 自己 的 程序 或 文档 中 用 到 本 书 中 的 代码 。 除 非 大 
段 大 段 地 使 用 ， 否 则 不 必 与 我 们 联系 取得 授权 。 例 如 ， 无 需 请 求 许可 ， 就 可 以 用 本 
书 中 的 几 段 代码 写成 一 个 程序 。 但 是 销售 或 者 发 布 OReilly 图 书 中 代码 的 光盘 则 必 
须 事 先 获得 授权 。 引 用 书 中 的 代码 来 回答 问题 也 无 需 授 权 。 将 大 段 的 示例 代码 整合 
到 你 自己 的 产品 文档 中 则 必须 经 过 许可 。 


我 们 非常 感谢 你 能 标明 出 处 ， 但 并 不 强求 。 出 处 一 般 包括 书 名 、 作 者 、 出 版 商 和 
ISBN， 例 如 《MongoDB 权威 指南 (第 2 版 )》，Kristina Chodorow 著 (O’Reilly， 
2013)。 版 权 所 有 ，978-1-449-34468-9。 

















如 果 有 关于 使 用 代码 的 未 尽 事宜 ， 可 以 随时 与 我 们 联系 : permissions@oreilly.com 。 


Safari 在 线 图 书 


Safari 在 线 图 书 (www.safaribooksonline.com) 是 应 需 而 
Safa ri 变 的 数字 图 书馆 。 它 同时 以 图 书 和 视频 的 形式 出 版 世界 
Books Online” 顶级 技术 和 商务 作家 的 专业 作品 。 


Safari Books Online 是 技术 专家 、 软 件 开 发 人 员 、Web 设计 师 、 商 务 人 士 和 创意 人 
士 开 展 调研 、 解 决 问题 、 学 习 和 认证 培训 的 第 一 手 资料 。 

对 于 组 织 团 体 、 政 府 机 构 和 个 人 ，Safari Books Online 提供 各 种 产品 组 合 和 灵活 
的 定价 策略 。 用 户 可 通过 一 个 功能 完备 的 数据 库 检 索 系 统 访问 O'Reilly Media、 


Prentice Hall Professional、Addison-Wesley Professional、Microsoft Press、Sams、 











Que、Peachpit Press、 Focal Press、Cisco Press、John Wiley & Sons、 Syngress.、 
Morgan Kaufmann、IBM Redbooks、Packt、Adobe Press、 FT Press、 Apress.、 
Manning、 New Riders、 McGraw-Hill、Jones & Bartlett、 Course Technology 以 及 其 他 
几 十 家 出 版 社 的 上 千 种 图 书 、 培 训 视 频 和 正式 出 版 之 前 的 书稿 。 要 了 解 SafariBooks 
Online 的 更 多 信息 ， 我 们 网 上 见 。 
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联系 我 们 
请 把 对 本 书 的 评价 和 问题 发 给 出 版 社 。 


美国 : 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 


Sebastopol, CA 95472 
区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 


中 国 : 
北京 市 西城 
奥 莱 利 技术 咨询 (北京 ) 有 限 公司 
O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 本 书 的 相关 信息 ， 包 括 勘 误 








表 、 示 例 代 码 以 及 其 他 信息 。 本 书 的 网 站 地 址 是 : 


http://oreil.ly/mongodb_2e 
对 于 本 书 的 评论 和 技术 性 问题 ， 请 发 送 电 子 邮 件 到 : 


bookquestions @oreilly.com 
要 了 解 更 多 O’Reilly 图 书 、 培 训 课 程 、 会 议和 新 闻 的 信息 ， 请 访问 以 下 网 站 : 





http://www.oreilly.com 


我 们 在 Facebook 的 地 址 如 下 : 


http://facebook.com/oreilly 


请 关注 我 们 的 Twitter 动态 : 
http://twitter.com/oreillymedia 


我 们 的 YouTube 视频 地 址 如 下 : 
http://www.youtube.com/oreillymedia 
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第 1 章 


MongoDB 简 介 





MongoDB 是 一 款 强 大 、 灵 活 ， 且 易于 扩展 的 通用 型 数据 库 。 它 能 扩展 出 非常 多 
的 功能 ， 如 二 级 索引 (secondary index)、 范 围 查 询 (range query)、 排 序 、 聚 合 
(aggregation) ， 以 及 地 理 空 间 索 引 (geospatial index)。 本 章 涵盖 了 MongoDB 的 主 
要 设计 特点 。 


1.1 易于 使 用 


MongoDB 是 一 个 面向 文档 (document-oriented) 的 数据 库 ， 而 不 是 关系 型 数据 库 。 
不 采用 关系 模型 主要 是 为 了 获得 更 好 的 扩展 性 。 当 然 , 还 有 其 他 一 些 好 处 。 


与 关系 型 数据 库 相 比 ， 面 向 文档 的 数据 库 不 再 有 “ 行 ”(row) 的 概念 ， 取 而 代 之 的 
是 更 为 灵活 的 “文档 ”(document) 模型 。 通 过 在 文档 中 典 入 文档 和 数组 ， 面 向 文 
档 的 方法 能 够 仅 使 用 一 条 记录 来 表现 复杂 的 层次 关系 ， 这 与 使 用 现代 面向 对 象 语言 
的 开发 者 对 数据 的 看 法 一 致 。 











另外 ， 不 再 有 预定 义 模式 (predefined schema) : 文档 的 键 (key) 和 值 (value) 不 
再 是 固定 的 类 型 和 大 小 。 由 于 没有 固定 的 模式 ， 根 据 需 要 添加 或 删除 字段 变 得 更 容 
易 了 。 通 常 ， 由 于 开发 者 能 够 进行 快速 迭代 ， 所 以 开发 进程 得 以 加 快 。 而 且 ， 实 验 
更 容易 进行 。 开 发 者 能 尝试 大 量 的 数据 模型 ， 从 中 选择 一 个 最 好 的 。 





1.2 易于 扩展 


应 用 程序 数据 集 的 大 小 正在 以 不 可 思议 的 速度 增长 。 随 着 可 用 带宽 的 增长 和 存储 器 
价格 的 下 降 ， 即 使 是 一 个 小 规模 的 应 用 程序 ， 需 要 存储 的 数据 量 也 可 能 大 得 惊人 ， 
甚至 超出 了 很 多 数据 库 的 处 理 能 力 。 过 去 非常 罕见 的 工 级 别 数 据 ， 现 在 已 是 司空 见 
惯 了 。 


由 于 需要 存储 的 数据 量 不 断 增长 ， 开 发 者 面临 一 个 困难 : 应 该 如 何 扩展 数据 库 ? 实 
质 上 ， 这 是 纵向 扩展 (scale up) 和 横向 扩展 〈scale out) 之 间 的 选择 。 纵 向 扩展 就 
是 使 用 计算 能 力 更 强 的 机 器 ， 而 横向 扩展 就 是 通过 分 区 将 数据 分 散 到 更 多 机 器 上 。 
通常 ， 纵 向 扩展 是 最 省 力 的 做 法 ， 其 缺点 是 大 型 机 一 般 都 非常 昂贵 。 而 且 ， 当 数据 
量 达到 机 器 的 物理 极限 时 ， 无 论 花 多 少 钱 也 买 不 到 更 强 的 机 器 了 。 另 一 个 选择 是 横 
向 扩展 : 要 增加 存储 空间 或 提高 性 能 ， 只 需 购买 一 台 普 通 的 服务 器 并 把 它 添加 到 集 
群 中 就 可 以 了 。 横 向 扩展 既 便 宜 又 易于 扩展 ， 不过， 管理 1000 台 机 器 比 管理 一 台 机 
器 显然 要 困难 得 多 。 


MongoDB 的 设计 采用 横向 扩展 。 面 向 文档 的 数据 模型 使 它 能 很 容易 地 在 多 台 服 务 
器 之 间 进行 数据 分 割 。MongoDB 能 自动 处 理 跨 集群 的 数据 和 负载 ， 自 动 重新 分 配 
文档 ， 以 及 将 用 户 请 求 路 由 到 正确 的 机 器 上 。 这 样 ， 开 发 者 能 够 集中 精力 编写 应 用 
程序 ， 而 不 需要 考虑 如 何 扩展 的 问题 。 如 果 一 个 集群 需要 更 大 的 容量 ， 只 需要 向 集 
群 添加 新 服务 器 ，MongoDB 就 会 自动 将 现 有 数据 向 新 服务 器 传送 。 


Ta 
1.3 丰富 的 功能 
MongoDB 作为 一 款 通用 型 数据 库 ， 除 了 能 够 创建 、 读 取 、 更 新 和 删除 数据 之 外 ， 
还 提供 一 系列 不 断 扩 展 的 独特 功能 。 
。 索引 (indexing ) 


MongoDB 支持 通用 二 级 索引 ， 人 允许 多 种 快速 查询 ， 且 提供 唯一 索引 、 复 合 索 引 、 
地 理 空间 索引 ， 以 及 全 文 索 引 。 


















































。 聚合 (aggregation ) 
MongoDB 支持 “聚合 管道 ”(aggregation pipeline)。 用 户 能 通过 简单 的 片段 创建 
复杂 的 聚合 ， 并 通过 数据 库 自 动 优化 。 

。 特殊 的 集合 类 型 
MongoDB 支持 存在 时 间 有 限 的 集合 ， 适 用 于 那些 将 在 某 个 时 刻 过 期 的 数据 ， 如 
会 话 (session)。 类 似 地 ，MongoDB 也 支持 固定 大 小 的 集合 ， 用 于 保存 近期 数 
据 ， 如 日 志 。 
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。 文件 存储 ( file storage ) 
MongoDB 支持 一 种 非常 易 用 的 协议 ， 用 于 存储 大 文件 和 文件 元 数据 。 


MongoDB 并 不 具备 一 些 在 关系 型 数据 库 中 很 普遍 的 功能 ， 如 连接 (join) 和 复杂 的 
多 行事 务 (multirow transaction)。 省 略 这 些 功 能 是 出 于 架构 上 的 考虑 (为 了 得 到 更 
好 的 扩展 性 )， 因 为 在 分 布 式 系统 中 这 两 个 功能 难以 高 效 地 实现 。 


1.4 卓越 的 性 能 


MongoDB 的 一 个 主要 目标 是 提供 卓越 的 性 能 ， 这 很 大 程度 上 决定 了 MongoDB 的 
设计 。MongoDB 能 对 文档 进行 动态 填充 (dynamic padding)， 也 能 预 分 配 数据 文 
件 以 利用 额外 的 空间 来 换取 稳定 的 性 能 。MongoDB 把 尽 可 能 多 的 内 存 用 作 缓 存 
(cache)， 试 图 为 每 次 查询 自动 选择 正确 的 索引 。 总 之 ，MongoDB 在 各 方面 的 设计 
都 冒 在 保持 它 的 高 性 能 。 


虽然 ， MongoDB 非常 强大 并 试图 保留 关系 型 数据 库 的 很 多 特性 ， 但 它 并 不 追求 
具备 关系 型 数据 库 的 所 有 功能 。 只 要 有 可 能 ， 数 据 库 服务 器 就 会 将 处 理 和 逻辑 交 
给 客户 端 〈 通 过 驱动 程序 或 用 户 的 应 用 程序 代码 来 实现 )。 这 种 精简 方式 的 设计 是 
MongoDB 能 够 实现 如 此 高 性 能 的 原因 之 一 。 






































1.5 “人 小结 


本 书 将 详细 说 明 MongoDB 开发 过 程 中 的 一 些 特定 设计 背后 的 原因 和 动机 ， 借 此 分 
享 MongoDB 背后 的 哲学 。 当 然 ， 掌 握 MongoDB 最 好 的 方式 是 创建 一 个 易 扩展 、 
灵活 、 快 速 的 功能 完备 的 数据 存储 ， 这 也 是 MongoDB 的 意义 所 在 。 
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第 2 章 


MongoDB 基 础 知识 








MongoDB 非常 强大 但 很 容易 上 手 。 本 章 会 介绍 一 些 MongoDB 的 基本 概念 。 


。 文档 是 MongoDB 中 数据 的 基本 单元 ,非常 类 似 于 关系 型 数据 库 管 理 系统 中 的 行 ， 
但 更 具 表 现 力 。 

。 类 似 地 ,集合 (collection) 可 以 看 作 是 一 个 拥有 动态 模式 (dynamic schema) 的 表 。 

。 MongoDB 的 一 个 实例 可 以 拥有 多 个 相互 独立 的 数据 库 (database)， 每 一 个 数据 库 
都 拥有 自己 的 集合 。 

。 每 一 个 文档 都 有 一 个 特殊 的 键 "id", 这 个 键 在 文档 所 属 的 集合 中 是 唯一 的 。 

。 MongoDB 自 带 了 一 个 简单 但 功能 强大 的 JavaScript shell， 可 用 于 管理 MongoDB 
的 实例 或 数据 操作 。 


2.1 文档 


文档 是 MongoDB 的 核心 概念 。 文 档 就 是 键 值 对 的 一 个 有 序 集 。 每 种 编程 语言 表 
示 文 档 的 方法 不 太一 样 ， 但 大 多 数 编程 语言 都 有 一 些 相 通 的 数据 结构 ， 比 如 映射 
(map)、 散 列 (hash) 或 字典 〈dictionary) 。 例 如 ， 在 JavaScript 里 面 ， 文 档 被 表示 
为 对 象 : 


{"greeting" : "Hello, world!"} 








这 个 文档 只 有 一 个 键 "greeting"， 其 对 应 的 值 为 "Hello, world!"。 大 多 数 文档 
会 比 这 个 简单 的 例子 复杂 得 多 ， 通 常会 包含 多 个 键 / 值 对 : 


{"greeting" : "Hello, -world!", "foo"” : 3} 





从 上 面 的 例子 可 以 看 出 ， 文 档 中 的 值 可 以 是 多 种 不 同 的 数据 类 型 (甚至 可 以 是 一 个 
完整 的 内 和 瞬 文 档 ， 详 见 2.6.4 节 )。 在 这 个 例子 中 ，"greeting'" 的 值 是 一 个 字符 串 ， 
而 "foo" 的 值 是 一 个 整数 。 


文档 的 键 是 字符 串 。 除 了 少数 例外 情况 ， 键 可 以 使 用 任意 UTF-8 字符 。 


。 键 不 能 含有 \0 〈 空 字符 )。 这 个 字符 用 于 表示 键 的 结尾 。 





。 .和 $ 具有 特殊 意义 ， 只 能 在 特定 环境 下 使 用 (后面 的 章 市 会 详细 说 明 )。 通 常 ， 
这 两 个 字符 是 被 保留 的 ， 如 果 使 用 不 当 的 话 ， 驱 动 程序 会 有 提示 。 


MongoDB 不 但 区 分 类 型 ， 而 且 区 分 大 小 写 。 例 如 ， 下 面 的 两 个 文档 是 不 同 的 : 





{"foo" : 3} 
{"foo"” : "3"} 
下 面 两 个 文档 也 是 不 同 的 : 
{"Ttoo" “8} 
{"Foo" : 3} 























还 有 一 个 非常 重要 的 事项 需要 注意 ，MongoDB 的 文档 不 能 有 重复 的 键 。 例 如 ， 下 
面 的 文档 是 非法 的 : 





{"greeting" : "Hello, world!", "greeting" : "Hello, MongoDB!"} 


文档 中 的 键 / 值 对 是 有 序 的 fx” : 1，"y": 2) 与 f"y": 2，"x": 1) 是 不 同 
的 。 通 常 ， 字 段 顺 序 并 不 重要 ， 无 须 让 数据 库 模 式 依赖 特定 的 字段 顺序 (MongoDB 
会 对 字段 重新 排序 ) 。 在 某 些 特殊 情况 下 ， 字 段 顺序 变 得 非常 重要 ， 本 书 将 就 此 给 出 
提示 。 

一 些 编程 语言 对 文档 的 默认 表示 根本 就 不 包含 顺序 问题 (如 : Python 中 的 字典 、 
Perl 和 Ruby 1.8 中 的 散 列 ) 。 通 常 ， 这 些 语言 的 驱动 具有 某 些 特殊 的 机 制 ， 可 以 在 
必要 时 指定 文档 的 顺序 。 





:2 集合 
集合 就 是 一 组 文档 。 如 果 将 MongoDB 中 的 一 个 文档 比喻 为 关系 型 数据 库 中 的 一 行 ， 
那么 一 个 集合 就 相当 于 一 张 表 。 


2.2.1 动态 模式 
集合 是 动态 模式 的 。 这 意味 着 一 个 集合 里 面 的 文档 可 以 是 各 式 各 样 的 。 例 如 ， 下 面 
两 个 文档 可 以 存储 在 同一 个 集合 里 面 ， 
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{"greeting" : "Hello, world!"} 
让 


需要 注意 的 是 ， 上 面 的 文档 不 光 值 的 类 型 不 同 〈 一 个 是 字符 串 ， 一 个 是 整数 ) ， 它 
们 的 键 也 完全 不 同 。 因 为 集合 里 面 可 以 放置 任何 文档 ， 随 之 而 来 的 一 个 问题 是 : 还 
有 必要 使 用 多 个 集合 吗 ? 这 的 确 值得 思考 ， 既然 没有 必要 区 分 不 同类 型 文档 的 模式 ， 
为 什么 还 要 使 用 多 个 集合 呢 ? 这 里 有 儿 个 重要 的 原因 。 





如 果 把 各 种 各 样 的 文档 不 加 区 分 地 放 在 同一 个 集合 里 ， 无 论 对 开发 者 还 是 对 管理 
员 来 说 都 将 是 赴 梦 。 开 发 者 要 么 确保 每 次 查询 只 返回 特定 类 型 的 文档 ， 要 么 让 执 
行 查 询 的 应 用 程序 来 处 理 所 有 不 同类 型 的 文档 。 如 果 查 询 博 客 文章 时 还 要 剔除 含 
有 作者 数据 的 文档 ， 这 会 带 来 很 大 困扰 。 
































。 在 一 个 集合 里 查询 特定 类 型 的 文档 在 速度 上 也 很 不 划算 ， 分 开 查 询 多 个 集合 要 








快 得 多 。 例 如 ， 假 设 集合 里 面 一 个 名 为 "type" 的 字段 用 于 指明 文档 是 skim、 
whole 还 是 chunky monkey。 那 么 ， 如 果 从 一 个 集合 中 查询 这 三 种 类 型 的 文档 ， 
速度 会 很 慢 。 但 如 果 将 这 三 种 不 同类 型 的 文档 拆 分 为 三 个 不 同 的 集合 ， 每 次 只 需 
要 查询 相应 的 集合 ， 速 度 快 得 多 。 




















。 把 同 种 类 型 的 文档 放 在 一 个 集合 里 ， 数 据 会 更 加 集中 。 从 一 个 只 包含 博客 文章 的 


集合 里 查询 儿 篇 文章 ,或 者 从 同时 包含 文章 数据 和 作者 数据 的 集合 里 查 出 儿 篇 文 
章 ， 相 比 之 下 ， 前 者 需要 的 磁盘 寻 道 操作 更 少 。 








Ws 





。 创建 索引 时 ， 需 要 使 用 文档 的 附加 结构 (特别 是 创建 唯一 索引 时 )。 索 引 是 按照 








集合 来 定义 的 。 在 一 个 集合 中 只 放 入 一 种 类 型 的 文档 ， 可 以 更 有 效 地 对 集合 进行 
索引 。 


上 面 这 些 重要 原因 促使 我 们 创建 一 个 模式 ， 把 相关 类 型 的 文档 组 织 在 一 起 ， 尽 管 
MongoDB 对 此 并 没有 强制 要 求 。 





2.2.2 命名 

集合 使 用 名 称 进 行 标识 。 集 合 名 可 以 是 满足 下 列 条 件 的 任意 UTF-8 字符 串 。 

。 集合 名 不 能 是 空 字符 串 ("")。 

。 集合 名 不 能 包含 \0 字符 〈 空 字符 ) ， 这 个 字符 表示 集合 名 的 结束 。 

。 集合 名 不 能 以 “system.” 开 头 ， 这 是 为 系统 集合 保留 的 前 级 。 例 如 ，system.users 











这 个 集合 保存 着 数据 库 的 用 户 信息 ， 而 system.namespaces 集合 保存 着 所 有 数据 
库 集 合 的 信息 。 

用 户 创建 的 集合 不 能 在 集合 名 中 包含 保留 字符 '$' 。 因 为 某 些 系统 生成 的 集合 中 
包含 $， 很 多 驱动 程序 确实 支持 在 集合 名 里 包含 该 字符 。 除 非 你 要 访问 这 种 系统 
创建 的 集合 ， 否 则 不 应 该 在 集合 名 中 包含 $。 
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子 集合 

组 织 集 合 的 一 种 惯例 是 使 用 “.” 分 隔 不 同 命名 空间 的 子 集 合 。 例 如 ， 一 个 具有 博客 
功能 的 应 用 可 能 包含 两 个 集合 ， 分 别 是 blog.posts 和 blog.authors。 这 是 为 了 使 组 织 
结构 更 清晰 ， 这 里 的 blog 集合 〈 这 个 集合 甚至 不 需要 存在 ) 跟 它 的 子 集合 没有 任何 


虽然 子 集合 没有 任何 特别 的 属性 ， 但 它们 却 非常 有 用 ， 因 而 很 多 MongoDB 工具 都 
使 用 了 子 集合 。 


。 GridFS (一 种 用 于 存储 大 文件 的 协议 ) 使 用 子 集 合 来 存储 文件 的 元 数据 ， 这 样 就 
可 以 与 文件 内 容 块 很 好 地 隔离 开 来 。( 第 6 章 会 详细 介绍 GridFS 。) 

。 大 多 数 驱 动 程序 都 提供 了 一 些 语法 糖 ， 用 于 访问 指定 集合 的 子 集合 。 例 如 ， 在 数 
据 库 shell 中 ,db.blog 代表 blog 集合 ,而 db .blog.posts 代表 blog.posts 集合 。 


在 MongoDB 中 ， 使 用 子 集合 来 组 织 数据 非常 高 效 ， 值 得 推荐 。 


2.3 数据 库 

在 MongoDB 中 ， 多 个 文档 组 成 集合 ， 而 多 个 集合 可 以 组 成 数据 库 。 一 个 MongoDB 
实例 可 以 承载 多 个 数据 库 ， 每 个 数据 库 拥 有 0 个 或 者 多 个 集合 。 每 个 数据 库 都 有 
独立 的 权限 ， 即 便 是 在 磁盘 上 ， 不 同 的 数据 库 也 放置 在 不 同 的 文件 中 。 按 照 经 
验 ， 我 们 将 有 关 一 个 应 用 程序 的 所 有 数据 都 存储 在 同一 个 数据 库 中 。 要 想 在 同一 
个 MongoDB 服务 器 上 存放 多 个 应 用 程序 或 者 用 户 的 数据 ， 就 需要 使 用 不 同 的 数 
据 库 。 


数据 库 通 过 名 称 来 标识 ， 这 点 与 集合 类 似 。 数 据 库 名 可 以 是 满足 以 下 条 件 的 任意 
UTF-8 字符 串 。 























。 不 能 是 空 

。 不 得 含有 /\、.、"、*、<、>、:、|、?、$、 (一 个 空格 )、\0 ( 空 字符 )。 基 本 上 ， 
只 能 使 用 ASCII 中 的 字母 和 数字 。 

。 数据 库 名 区 分 大 小 写 , 即便 是 在 不 区 分 大 小 写 的 文件 系统 中 也 是 如 此 。 简 单 起 见 ， 
数据 库 名 应 全 部 小 写 。 

。 数据 库 名 最 多 为 64 字 市 。 


要 记 住 一 点 ， 数 据 库 最 终 会 变 成 文件 系统 里 的 文件 ， 而 数据 库 名 就 是 相应 的 文件 名 ， 
这 是 数据 库 名 有 如 此 多 限制 的 原因 。 


另外 ， 有 一 些 数据 库 名 是 保留 的 ， 可 以 直接 访问 这 些 有 特殊 语义 的 数据 库 。 这 些 数 
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据 库 如 下 所 示 。 





。 admin 


从 身份 验证 的 角度 来 讲 ， 这 是 “root” 数 据 库 。 如 果 将 一 个 用 户 添 加 到 admin 数 


据 局 


E， 这 个 用 户 将 自动 获得 所 有 数据 库 的 权限 。 再 者 ， 一 些 特定 的 服务 器 端 命令 





也 只 能 从 admin 数据 库 运行 ， 如 列 出 所 有 数据 库 或 关闭 服务 器 。 


。 local 
这 个 数据 库 永远 都 不 可 以 复制 ， 且 一 台 服 务 器 上 的 所 有 本 地 集合 都 可 以 存储 在 这 
个 数据 库 中 。( 第 9 章 会 详细 介绍 复制 及 本 地 数据 库 。) 





。 config 


MongoDB 用 于 分 片 设置 时 (参见 第 13 章 ) ， 分 片 信息 会 存储 在 config 数据 库 中 。 
把 数据 库 名 添加 到 集合 名 前 ， 得 到 集合 的 完全 限定 名 ， 即 命名 空间 (namespace) 。 


例如 ， 
blog. 








如 果 要 使 用 cms 数据 库 中 的 blog.posts 集合 ， 这 个 集合 的 命名 空间 就 是 cms. 
posts。 命 名 空间 的 长 度 不 得 超过 121 字 节 ， 且 在 实际 使 用 中 应 小 于 100 字 





节 。( 参 考 附 孙 B， 了 解 MongoDB 中 集合 的 命名 空间 及 内 部 表示 的 更 多 信息 。) 


2.4 


通常 ， 


启动 MongoDB 
MongoDB 作为 网 络 服务 器 来 运行 ， 客 户 端 可 连接 到 该 服务 器 并 执行 操作 。 


下 载 MongoDB (http://www.mongodb.org/downloads) 并 解压 ， 运 行 mongod 命令 ， 
启动 数据 库 服务 器 : 


$ 
mo 
Th 


Th 
Th 


Th 
Th 
Th 
Th 


Th 


Th 


mongod 

ngod --help for help and startup options 

u Oct 11 12:36:48 [initandlisten] MongoDB starting : pid=2425 port=27017 
dbpath=/data/db/ 64-bit host=spock 

u Oct 11 12:36:48 [initandlisten] db version v2.4.0, pdNle version 4.5 

u Oct 11 12:36:48 [initandlisten] git version: 
3aaea5262d761le0bb6bfef5351cfbfca7af06ec2 

u Oct 11 12:36:48 [initandlisten] build info: Darwin spock 11.2.0 Darwin Kernel 
Version 11.2.0: Tue Aug 9 20:54:00 PDT 2011; 
root:xnu-1699.24.8~]1/RELEASE X86 64 x86 64 BOOST LIB VERSION=1 48 

u Oct 11 12:36:48 [initandlisten] options: {} 

u Oct 11 12:36:48 [initandlisten] journal dir=/data/db/journal 

u Oct 11 12:36:48 [initandlisten] recover : no journal Nles present, no 
recovery needed 

u Oct 11 12:36:48 [websvr] admin web console waiting for connections on 
port 28017 

uU Oct 11 12:36:48 [initandListen] waiting for connections on port 27017 


在 Windows 系统 中 ， 执 行 这 个 命令 : 
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$ mongod ,exe 


过 


a 关于 安装 MongoDB 的 详细 信息 ， 参 见 附录 A。 
~ 








mongod 在 没有 参数 的 情况 下 会 使 用 默认 数据 目录 /data/db (Windows 系统 中 为 C*\ 
data\db)。 如 果 数 据 目录 不 存在 或 者 不 可 写 ， 服务器 会 启动 失败 。 因 此 ， 在 启动 
MongoDB 前 ， 先 创建 数据 目录 (如 mkdir -p /data/db/) ， 以 确保 对 该 目录 有 写 权 限 ， 
这 点 非常 重要 。 

启动 时 ， 服 务 器 会 打印 版 本 和 系统 信息 ， 然 后 等 待 连接 。 默 认 情 况 下 ，MongoDB 
监听 27017 端口 。 如 果 端 口 被 占用 ， 局 动 将 失败 。 通 常 ， 这 是 由 于 已 经 有 一 个 
MongoDB 实例 在 运行 了 。 


mongod 还 会 启动 一 个 非常 基本 的 HTTP 服务 器 


局 
局 








， 监 听 数 字 比 主 端口 号 高 1000 的 端 


口 ， 也 就 是 28017 端口 。 这 意味 着 ， 通 过 浏览 器 访问 http:Wlocalhost:28017， 能 获取 
数据 库 的 管理 信息 。 


中 止 mongod 的 运行 ， 只 须 在 运行 着 服务 器 的 shell 中 按 下 Ctrl-C。 




















过 <， 


要 想 了 解 启 动 和 停止 MongoDB 的 更 多 细节 ， 参 见 第 20 章 。 








2.5 MongoDB shell 简 介 


MongoDB 自 带 JavaScript shell， 可 在 shell 中 使 用 命令 行 与 MongoDB 实例 交互 。 
shell 非常 有 用 ， 通 过 它 可 以 执行 管理 操作 ， 检 查 运行 实例 ， 亦 或 做 其 他 尝试 。 对 
MongoDB 来 说 ，mongo shell 是 至 关 重 要 的 工具 ， 其 应 用 之 广泛 将 体现 在 本 书 接 下 
来 的 部 分 中 。 




















2.5.1 运行 shell 


ne 


运行 mongo 启动 shell: 


$ mongo 

MongoDB shell version: 2.4.0 
connecting to: test 

> 


启动 时 ，shell 将 自动 连接 MongoDB 服务 器 ， 须 确保 mongod 已 启动 。 
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shell 是 一 个 功能 完备 的 JavaScript 解释 器 ， 可 运行 任意 JavaScript 程序 。 为 说 明 这 
一 点 ， 我 们 运行 几 个 简单 的 数学 运算 





> x = 200 
200 

:i 
40 


另外 ， 可 充分 利用 JavaScript 的 标准 库 : 


> Math.sin(Math.PI / 2); 

1 

> new Date("2010/1/1"); 

"Fri Jan 01 2010 00:00:00 GMT-0500 (EST)" 

> "Hello, World!".replace("World", "MongoDB"); 
Hello, MongoDB! 


再 者 ， 可 定义 和 调用 JavaScript 函数 : 


> function factorial (n) { 
. if (n <= 1) return 1; 
. return n * factorial(n - 1); 


ra 
> factorial(5); 
120 


需要 注意 ， 可 使 用 多 行 命令 。shell 会 检测 输入 的 JavaScript 语句 是 否 完整 ， 如 没 写 
完 可 在 下 一 行 接着 写 。 在 某 行 连续 三 次 按 下 回 车 键 可 取消 未 输入 完成 的 命令 ， 并 退 
回 到 > 一 提示 符 。 





2.5.2 ”MongoDB 客 户 端 


能 运行 任意 JavaScript 程序 听 上 去 很 酷 ， 不 过 shell 的 真正 强大 之 处 在 于 ， 它 是 一 个 
独立 的 MongoDB 客户 端 。 启 动 时 ，shell 会 连 到 MongoDB 服务 器 的 test 数据 库 ， 
并 将 数据 库 连 接 赋值 给 全 局 变量 db。 这 个 变量 是 通过 shell 访问 MongoDB 的 主要 
入 口 = 























如 果 想 要 查看 db 当前 指向 哪个 数据 库 ， 可 以 使 用 db 命令 : 


> db 
test 


为 了 方便 习惯 使 用 SQL shell 的 用 户 ，shell 还 包含 一 些 非 JavaScript 语法 的 扩展 。 
这 些 扩 展 并 不 提供 额外 的 功能 ， 而 是 一 些 非常 棒 的 语法 糖 。 例 如 ， 最 重要 的 操作 之 
一 为 选择 数据 库 : 
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> use foobar 
Switched to db foobar 





现在 ， 如 果 查 看 db 变量 ， 会 发 现 其 正 指向 foobar 数据 库 : 


> db 
foobar 





因为 这 是 一 个 JavaScript shell， 所 以 键入 一 个 变量 会 将 此 变量 的 值 转换 为 字符 串 





( 即 数据 库 名 ) 并 打印 出 来 。 


db 变量 ， 可 访问 其 中 的 集合 。 例 如 ， 通 过 db .baz 可 返回 当前 数据 库 
。 因 为 通过 shell 可 访问 集合 ， 这 意味 着 ， 几乎 所 有 数据 库 操 作 都 可 以 通 





完成 


2.5.3 ”shell 中 的 基本 操作 











所 说 的 CRUD 操作 )。 
1. 创建 




















的 baz 集 
过 shell 


在 shell 中 查看 或 操作 数据 会 用 到 4 个 基本 操作 : 创建 、 读 取 、 更 新 和 删除 〈 即 通 稼 


insert 函数 可 将 一 个 文档 添加 到 集合 中 。 举 一 个 存储 博客 文章 的 例子 。 首 先 ， 创 
建 一 个 名 为 post 的 局 部 变量 ， 这 是 一 个 JavaScript 对 象 ， 用 于 表示 我 们 的 文档 。 它 





会 有 几 个 键 : "title"、"content" 和 "date" (发 布 日 期 )。 


> post = {"title" : "My Blog Post", 
... "Content" : "Here's my blog post.", 
... "date" : new Date()} 
{ 
"title" : "My Blog Post", 
"content" : "Here's my blog post.", 
"date" : ISODate("2012-08-24T21:12:09.9822") 
3 


这 个 对 象 是 个 有 效 的 MongoDB 文档 ， 所 以 可 以 用 insert 方法 将 其 


合 中 : 


> db.blog.insert(post) 


这 篇 文章 已 被 存 到 数据 库 中 。 要 查看 它 可 用 调用 集合 的 find 方法 : 


> db.blog.find() 


{ 
" id" : ObjectId("5037ee4al084eb3ffeef7228"), 
"title" : "My Blog Post", 
"content" : "Here's my blog post.", 





保存 到 blog 集 





"date" : ISODate("2012-08-24T21:12:09.9822") 
} 


可 以 看 到 ， 我 们 曾 输入 的 键 / 值 对 都 已 被 完整 地 记录 。 此 外 ， 还 有 一 个 额外 添加 的 
键 " id"。" id" 突然 出 现 的 原因 将 在 本 章 末 尾 解 释 。 


2. 读 取 
find 和 findOne 方 法 可 以 用 于 查询 集合 里 的 文档 。 若 只 想 查 看 一 个 文档 ， 可 用 
findOne: 


> db.blog.findOne() 


{ 
"_id" : ObjectId("5037ee4al084eb3ffeef7228"), 
"title" : "My Blog Post", 
"content" : "Here's my blog post.", 
"date" : ISODate("2012-08-24T21:12:09.9822") 
} 


find 和 findOne 可 以 接受 一 个 查询 文档 作为 限定 条 件 。 这 样 就 可 以 查询 符合 一 定 
条 件 的 文档 。 使 用 find 时 ，shell 会 自动 显示 最 多 20 个 匹配 的 文档 ， 也 可 获取 更 多 
文档 。 第 4 章 会 详细 介绍 查询 相关 的 内 容 。 


3. 更 新 

使 用 update 修改 博客 文章 。update 接受 (至少) 两 个 参数 : 第 一 个 是 限定 条 件 
(用 于 匹配 待 更 新 的 文档 ) ， 第 二 个 是 新 的 文档 。 假 设 我 们 要 为 先前 写 的 文章 增加 评 
论 功 能 ， 就 需要 增加 一 个 新 的 键 ， 用 于 保存 评论 数组 。 


首先 ， 修 改变 量 post， 增 加 "comments" 键 : 














> post.comments = [] 


[ ] 

然后 执行 update 操作 ， 用 新 版 本 的 文档 替换 标题 为 “My Blog Post” 的 文章 : 
> db.blog.update({title : "My BLog Post"}, post) 

现在 ,文档 已 经 有 了 "comments" 键 。 再 用 find 查看 一 下 ， 可 以 看 到 新 的 键 : 


> db.blog.find() 





{ 
"_id" : ObjectId("5037ee4al084eb3ffeef7228"), 
"title" : "My Blog Post", 
"content" : "Here's my blog post.", 
"date" : ISODate("2012-08-24T21:12:09.9822")， 
"comments" : [ ] 

} 
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4. 删除 

使 用 remove 方法 可 将 文档 从 数据 库 中 永久 删除 。 如 果 没 有 使 用 任何 参数 ， 它 会 将 
集合 内 的 所 有 文档 全 部 删除 。 它 可 以 接受 一 个 作为 限定 条 件 的 文档 作为 参数 。 例 如 ， 
下 面 的 命令 会 删除 刚刚 创建 的 文章 : 














> db.blog.remove({title : "My Blog Post"}) 


现在 ,集合 又 是 空 的 了 。 


2.6 ”数据 类 型 

本 章 开 始 部 分 介绍 了 文档 的 基本 概念 ， 现 在 你 已 经 会 启动 、 运 行 MongoDB， 也 会 
在 shell 中 进行 一 些 操作 了 。 这 一 市 的 内 容 会 更 加 深入 。MongoDB 支持 将 多 种 数据 
类 型 作为 文档 中 的 值 ， 下 面 将 一 一 介绍 。 


2.6.1 基本 数据 类 型 

在 概念 上 ，MongoDB 的 文档 与 JavaScript 中 的 对 象 相近 ， 因 而 可 认为 它 类 似 于 
JSON。JSON (http://www.json.org) 是 一 种 简单 的 数据 表示 方式 : 其 规范 仅 用 一 段 文 
字 就 能 描述 清楚 (其 官网 证 明了 这 点 )， 且 仅 包 含 6 种 数据 类 型 。 这 样 有 很 多 好 人 处: 
易于 理解 、 易 于 解析 、 易 于 记忆 。 然 而 ， 从 另 一 方面 来 说 ， 因 为 只 有 null、 布 尔 、 
数字 、 字 符 串 、 数 组 和 对 象 这 几 种 数据 类 型 ， 所 以 JSON 的 表达 能 力 有 一 定 的 局 限 。 


虽然 JSON 具备 的 这 些 类 型 已 具有 很 强 的 表现 力 ， 但 绝 大 多 数 应 用 (尤其 是 在 与 数 
据 库 打交道 时 ) 都 还 需要 其 他 一 些 重要 的 类 型 。 例 如 ，JSON 没有 日 期 类 型 ， 这 使 
原本 容易 的 日 期 处 理 变 得 烦人 。 另 外 ，JSON 只 有 一 种 数字 类 型 ， 无 法 区 分 浮 点 数 
和 整数 ， 更 别 说 区 分 32 位 和 64 位 数字 了 。 再 者 ，JSON 无 法 表示 其 他 一 些 通用 类 
型 ， 如 正则 表达 式 或 函数 。 

MongoDB 在 保留 JSON 基本 键 / 值 对 特性 的 基础 上 ， 添 加 了 其 他 一 些 数据 类 型 。 
在 不 同 的 编程 语言 下 ， 这 些 类 型 的 确切 表示 有 些许 差异 。 下 面 说 明 MongoDB 支持 
的 其 他 通用 类 型 ， 以 及 如 何在 文档 中 使 用 它们 。 
























































。 null 
null 用 于 表示 空 值 或 者 不 存在 的 字段 : 
{"x"” : null} 
。 布尔 型 


布尔 类 型 有 两 个 值 true 和 false: 
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{"x" : true} 





数值 
shell 默认 使 用 64 位 浮 点 型 数值 。 因 此 ， 以 下 数值 在 shell 中 是 很 “正常 ”的 : 
人 
或 : 
起 
对 于 整 型 值 ， 可 使 用 NumberInt 类 (表示 4 字 节 人 带 符号 整数 ) 或 NumberLong 
类 (表示 8 字符 带 符号 整数 ) ， 分 别 举例 如 下 : 
{"x" : NumberInt("3")} 
{"x" : NumberLong("3")} 
字符 事 
UTF-8 字符 串 都 可 表示 为 字符 串 类 型 的 数据 : 
{"x" : "foobar"} 
日 期 


日 期 被 存储 为 自 新 纪元 以 来 经 过 的 毫秒 数 ， 不 存储 时 区 : 
{"x" : new Date()} 


正则 表达 式 
查询 时 ， 使 用 正则 表达 式 作 为 限定 条 件 ， 语 法 也 与 JavaScript 的 正则 表达 式 语法 
相同 : 
{"x" : /foobar/i} 
数组 
数据 列表 或 数据 集 可 以 表示 为 数组 : 
tay] 
内 骨 文 档 
文档 可 幢 套 其 他 文档 ， 被 风 套 的 文档 作为 父 文档 的 值 : 
{"x" : {"foo"” : "bar"}} 
对 象 id 
对 象 id 是 一 个 12 字 节 的 ID ， 是 文档 的 唯一 标识 。 详 见 2.6.5 节 。 


{"x" : ObjectId()} 
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还 有 一 些 不 那么 常用 ， 但 可 能 有 需要 的 类 型 ， 包 括 下 面 这 些 。 


。 二 进 制 数据 
二 进 制 数据 是 一 个 任意 字 节 的 字符 串 。 它 不 能 直接 在 shell 中 使 用 。 如 果 要 将 非 
UTF-8 字符 保存 到 数据 库 中 ， 二 进 制 数据 是 唯一 的 方式 。 


。 代码 
查询 和 文档 中 可 以 包括 任意 JavaScript 代码 : 


{"x" : function() { /* ... */ }} 


另外 ， 有 几 种 大 多 数 情况 下 仅 在 内 部 使 用 〈 或 被 其 他 类 型 取代 ) 的 类 型 。 在 本 书 中 ， 
出 现 这 种 情况 时 会 特别 说 明 。 


关于 MongoDB 数据 格式 的 更 多 信息 ， 参 考 附录 B。 














2.6.2 日 期 


在 JavaScript 中 ，Date 类 可 以 用 作 MongoDB 的 日 期 类 型 。 创 建 日 期 对 象 时 ， 应 使 
用 new Date (…)， 而 非 Date(…)。 如 将 构造 函数 (constructor) 作为 函数 进行 调 
用 ( 即 不 包括 new 的 方式 )， 返 回 的 是 日 期 的 字符 串 表示 ， 而 非 日 期 (Date) 对 象 。 
这 个 结果 与 MongoDB 无 关 ， 是 JavaScript 的 工作 机 制 决定 的 。 如 果 不 注意 这 一 点 ， 
没有 始终 使 用 日 期 (Date) 构造 函数 ， 将 得 到 一 堆 混 乱 的 日 期 对 象 和 日 期 的 字符 
串 。 由 于 日 期 和 字符 串 之 间 无 法 匹配 ， 所 以 执行 删除 、 更 新 及 查询 等 几乎 所 有 操作 
会 导致 很 多 问题 。 


关于 JavaScript 日 期 类 的 完整 解释， 以 及 构造 函数 的 参数 格式 ， 参 见 ECMAScript 
规范 15.9 节 (http://www.ecmascript.org)。 


shell 根据 本 地 时 区 设置 显示 日 期 对 象 。 然 而 ， 数 据 库 中 存储 的 日 期 仅 为 新 纪元 以 来 
的 毫秒 数 ， 并 未 存储 对 应 的 时 区 。( 当 然 ， 可 将 时 区 信息 存储 为 另 一 个 键 的 值 ) 。 




















2.6.3 ”数组 


数组 是 一 组 值 ， 它 既 能 作为 有 序 对 象 《如 列表 、 栈 或 队列 ) ， 也 能 作为 无 序 对 象 〈 如 
数据 集 ) 来 操作 。 


在 下 面 的 文档 中 ，"things" 这 个 键 的 值 是 一 个 数组 : 





{"things" : ["pie", 3.14]} 


此 例 表 示 ， 数 组 可 包含 不 同 数据 类 型 的 元 素 (在 此 ， 是 一 个 字符 串 和 一 个 浮 点 数 )。 
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实际 上 ， 常 规 的 键 / 值 对 支持 的 所 有 值 都 可 以 作为 数组 的 值 ， 数 组 中 甚至 可 以 套 骨 
数组 。 


文档 中 的 数组 有 个 奇妙 的 特性 ， 就 是 MongoDB 能 “理解 ”其 结构 ， 并 知道 如 何 
“深入 ”数组 内 部 对 其 内 容 进行 操作 。 这 样 就 能 使 用 数组 内 容 对 数组 进行 查询 和 构建 
索引 了 。 例 如 ， 之 前 的 例子 中 ，MongoDB 可 以 查询 出 "things" 数组 中 包含 3.14 
这 个 元 素 的 所 有 文档 。 要 是 经 常 使 用 这 个 查询 ， 可 以 对 "things" 创建 索引 来 提高 
性 能 。 














MongoDB 可 以 使 用 原子 更 新 对 数组 内 容 进 行 修改 ， 比 如 深入 数组 内 部 将 pie 改 为 
pi。 本 书后 面 还 会 介绍 更 多 这 种 操作 的 例子 。 


2.6.4 内 刻 文 档 
文档 可 以 作为 键 的 值 ， 这 样 的 文档 就 是 内 这 文 档 。 使 用 内 嵌 文 档 ， 可 以 使 数据 组 织 
方式 更 加 自然 ， 不 用 非得 存 成 扁平 结构 的 键 / 值 对 。 


例如 ， 用 一 个 文档 来 表示 一 个 人 ， 同 时 还 要 保存 他 的 地 址 ， 可 以 将 地 址 信息 保存 在 
内 在 的 "address" 文档 中 : 











{ 
"name" : "John Doe", 
"address" : { 
"street" : "123 Park Street", 
"city"” : "Anytown", 
"state" : "NY" 
} 
} 


上 面 例子 中 "address" 键 的 值 是 一 个 内 账 文档 ， 这 个 文档 有 自己 的 "street"、 
"city" 和 "state" 键 以 及 对 应 的 值 。 


同 数组 一 样 ，MongoDB 能 够 “理解 ”内 艇 文档 的 结构 ， 并 能 “深入 ”其 中 构建 索 
引 、 执 行 查询 或 者 更 新 。 


稍 后 会 深入 讨论 模式 设计 ， 但 是 从 这 个 简单 的 例子 也 可 以 看 得 出 内 般 文 档 可 以 改变 
处 理 数据 的 方式 。 在 关系 型 数据 库 中 ， 这 个 例子 中 的 文档 一 般 会 被 拆 分 成 两 个 表 中 
的 两 个 行 (“people” 和 “address” 各 一 行 )。 在 MongoDB 中 ， 就 可 以 直接 将 地 址 文 
档 骨 入 到 人 员 文 档 中 。 使 用 得 当 的 话 ， 内 骨 文 档 会 使 信息 的 表示 方式 更 加 自然 ( 通 
常 也 会 更 高 效 ) 。 


MongoDB 这 样 做 的 坏处 就 是 会 导致 更 多 的 数据 重复 。 假 设 “address” 是 关系 数据 
库 中 的 一 个 独立 的 表 ， 我 们 需要 修正 地 址 中 的 拼写 错误 。 当 我 们 对 “people” 和 
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“address” 执 行 连接 操作 时 ， 使 用 这 个 地 址 的 每 个 人 的 信息 都 会 得 到 更 新 。 但 是 在 
MongoDB 中 ， 则 需要 对 每 个 人 的 文档 分 别 修正 拼写 错误 。 











2.6.5 _id 和 0bjectId 

MongoDB 中 存储 的 文档 必须 有 一 个 ” id" 键 。 这 个 键 的 值 可 以 是 任何 类 型 的 ， 默 
认 是 个 0bjectId 对 象 。 在 一 个 集合 里 面 ， 每 个 文档 都 有 唯一 的 "id"， 确 保 集 合 里 
面 每 个 文档 都 能 被 唯一 标识 。 如 果 有 两 个 集合 的 话 ， 两 个 集合 可 以 都 有 一 个 ” id" 
的 值 为 123， 但 是 每 个 集合 里 面 只 能 有 一 个 文档 的 "id'" 值 为 123。 

















1. 0bjectId 

0bjectId 是 "id" 的 默认 类 型 。 它 设计 成 轻 量 型 的 ， 不 同 的 机 器 都 能 用 全 局 唯一 
的 同 种 方法 方便 地 生成 它 。 这 是 MongoDB 采用 0bjectId， 而 不 是 其 他 比较 常规 
的 做 法 (比如 自动 增加 的 主键 ) 的 主要 原因 ， 因 为 在 多 个 服务 器 上 同步 自动 增加 主 
键 值 既 费力 又 费时 。 因 为 设计 MongoDB 的 初衷 就 是 用 作 分 布 式 数据 库 ， 所 以 能 够 
在 分 片 环境 中 生成 唯一 的 标示 符 非 常 重要 。 


0bjectId 使 用 12 字 节 的 存储 空间 ， 是 一 个 由 24 个 十 六 进 制 数字 组 成 的 字符 串 
(每 个 字 节 可 以 存储 两 个 十 六 进 制 数字 )。 由 于 看 起 来 很 长 ， 不 少 人 会 觉得 难以 处 理 。 
但 关键 是 要 知道 这 个 长 长 的 0bjectId 是 实际 存储 数据 的 两 倍 长 。 

如 果 快 速 连续 创建 多 个 0bjectId， 会 发 现 每 次 只 有 最 后 几 位 数字 有 变化 。 另 外 ， 
中 间 的 几 位 数字 也 会 变化 〈 要 是 在 创建 的 过 程 中 停顿 几 秒 钟 )。 这 是 0bjectId 的 创 
建 方式 导致 的 。0bjectId 的 12 字 节 按照 如 下 方式 生成 : 


























of11213 9|10|a 

时 间 疏 计数 器 
0bjectId 的 前 4 个 字 节 是 从 标准 纪元 开始 的 时 间 惟 ， 单 位 为 秒 。 这 会 带 来 一 些 有 
用 的 属性 。 


。 时 间 惟 ， 与 随后 的 5 字 节 ( 稍 后 介绍 ) 组 合 起 来 ， 提 供 了 秒 级 别 的 唯一 性 。 

。 由 于 时 间 戳 在 前 ， 这 意味 着 0bjectId 大 臻 会 按照 插入 的 顺序 排列 。 这 对 于 某 些 
方面 很 用， 比如 可 以 将 其 作为 索引 提高 效率 ， 但 是 这 个 是 没有 保证 的 ， 仅 仅 是 
“大 致 ”。 

。 这 4 字 节 也 隐 含 了 文档 创建 的 时 间 。 绝 大 多 数 驱 动 程序 都 会 提供 一 个 方法 ， 用 于 
从 0bjectId 获取 这 些 信息 。 


因为 使 用 的 是 当前 时 间 ， 很 多 用 户 担心 要 对 服务 器 进行 时 钟 同步 。 虽 然 在 某 些 情况 


4|5| 
机 器 


7|8 
PID 
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下 ， 在 服务 器 间 进 行 时 间 同 步 确实 是 个 好 主意 (参见 23.6.1 市 )， 但 是 这 里 其 实 没 
有 必要 ， 因 为 时 间 惟 的 实际 值 并 不 重要 ， 只 要 它 总 是 不 停 增 加 就 好 了 (每 秒 一 次 )。 


接 下 来 的 3 字 节 是 所 在 主机 的 唯一 标识 符 。 通 常 是 机 器 主机 名 的 散 列 值 (hash)。 这 
样 就 可 以 确保 不 同 主机 生成 不 同 的 0bjectId， 不 产生 冲突 。 


为 了 确保 在 同一 台 机 器 上 并 发 的 多 个 进程 产生 的 0bjectId 是 唯一 的 ， 接 下 来 的 两 
字 节 来 自 产 生 0bjectId 的 进程 的 进程 标识 符 (PID)。 


前 9 字 节 保证 了 同一 秒 钟 不 同 机 器 不 同 进程 产生 的 0bjectId 是 唯一 的 。 最 后 3 字 
节 是 一 个 自动 增加 的 计数 器 ， 确 保 相 同 进 程 同 一 秒 产 生 的 0bjectId 也 是 不 一 样 的 。 
一 秒 钟 最 多 允许 每 个 进程 拥有 2563 (16 777 216) 个 不 同 的 0bjectId。 

2. 自动 生成 id 

前 面 讲 到 ， 如 果 插 入 文档 时 没有 " id" 键 ， 系 统 会 自动 帮 你 创建 一 个 。 可 以 由 
MongoDB 服务 器 来 做 这 件 事 ， 但 通常 会 在 客户 端 由 驱动 程序 完成 。 这 一 做 法 非常 
好 地 体现 了 MongoDB 的 哲学 : 能 交 给 客户 端 驱动 程序 来 做 的 事情 就 不 要 交 给 服务 
器 来 做 。 这 种 理念 背后 的 原因 是 ， 即 便 是 像 MongoDB 这 样 扩展 性 非常 好 的 数据 库 ， 
扩展 应 用 层 也 要 比 扩展 数据 库 层 容易 得 多 。 将 工作 交 由 客户 端 来 处 理 ， 就 减轻 了 数 
据 库 扩展 的 负担 。 





























2.7 ”使 用 MongoDB shell 


本 节 将 介绍 如 何 将 shell 作为 命令 行 工 具 的 一 部 分 来 使 用 ， 如 何 对 shell 进行 定制 ， 
以 及 shell 的 一 些 高 级 功能 。 


在 上 面 的 例子 中 ， 我 们 只 是 连接 到 了 一 个 本 地 的 mongod 实例 。 事 实 上 ， 可 以 将 
shell 连接 到 任何 MongoDB 实例 (只 要 你 的 计算 机 与 MongoDB 实例 所 在 的 计算 机 
能 够 连通 )。 在 启动 shell 时 指定 机 器 名 和 端口 ， 就 可 以 连接 到 一 台 不 同 的 机 器 (或 
者 端口 ) : 


























$ mongo some-host:30000/myDB 
MongoDB shell version: 2.4.0 
connecting to: some-host:30000/myDB 
> 


db 现在 就 指向 了 some-host:30000 上 的 myDB 数据 库 。 











启动 mongo shell 时 不 连接 到 任何 mongod 有 时 很 方便 。 通 过 - -nodb 参数 启动 
shell， 启 动 时 就 不 会 连接 任何 数据 库 : 
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$ mongo --nodb 
MongoDB shell version: 2.4.0 
> 


启动 之 后 ， 在 需要 时 运行 new Mongo(hostname) 命令 就 可 以 连接 到 想 要 的 
mongod 7: 


> conn = new Mongo("some-host:30000") 
connection to some-host:30000 

> db = conn.getDB("myDB") 

myDB 


执行 完 这 些 命令 之 后 ， 就 可 以 像 平 常 一 样 使 用 db 了 。 任 何 时 候 都 可 以 使 用 这 些 命 
令 来 连接 到 不 同 的 数据 库 或 者 服务 器 


2.7.1 shell 小 贴 士 


由 于 mongo 是 一 个 简化 的 JavaScript shell， 可 以 通过 查看 JavaScript 的 在 线 文档 得 
到 大 量 帮 助 。 对 于 MongoDB 特有 的 功能 ，shell 内 置 了 帮助 文档 ， 可 以 使 用 help 




















命令 查看 : 
> help 
db .heLp() help on db methods 
db.mycoll.help() help on collection methods 
sh.help() sharding helpers 
show dbs show database names 
show collections show collections in current database 
show users show users in current database 


可 以 通过 db .help() 查看 数据 库 级 别 的 帮助 ， 使 用 db. foo.help() 查看 集合 级 别 
的 帮助 。 




















如 果 想 知道 一 个 函数 是 做 什么 用 的 ， 可 以 直接 在 shell 输入 函数 名 (函数 名 后 不 要 
输入 小 括号 )， 这 样 就 可 以 看 到 相应 函数 的 JavaScript 实现 代码 。 例 如 ， 如 果 想 知道 
update 函数 的 工作 机 制 ， 或 者 是 记 不 清 参 数 的 顺序 ， 就 可 以 像 下 面 这 样 做 














> db.foo.update 
function (query, obj, upsert, multi) { 
assert(query, "need a query"); 
assert(obj, "need an object"); 
this. validateObject(obj); 
this. mongo.update(this. fullName, query, obj, 
upsert ? true : false, multi ? true : false); 





2.7.2 ”使 用 shell 执 行 脚 本 
本 书 其 他 章 都 是 以 交互 方式 使 用 shell， 但 是 也 可 以 将 希望 执行 的 JavaScript 文件 传 
给 shell。 直 接 在 命令 行 中 传递 脚本 就 可 以 了 : 





$ mongo script1.js script2.js script3.js 
MongoDB shell version: 2.4.0 

connecting to: test 

I am script1.js 

I am script2.js 

I am script3.js 


$ 


mongo shell 会 依次 执行 传 入 的 脚本 ， 然 后 退出 。 





如 果 希 望 使 用 指定 的 主机 /端口 上 的 mongod 运行 脚本 ， 需 要 先 指 定 地 址 ， 然 后 再 
跟 上 脚本 文件 的 名 称 : 





$ mongo --quiet server-1:30000/foo script1.js script2.js script3.js 





这 样 可 以 将 db 指向 server-1:30000 上 的 foo 数据 库 ， 然 后 执行 这 三 个 脚本 。 如 上 所 
示 ， 运 行 shell 时 指定 的 命令 行 选 项 要 出 现在 地 址 之 前 。 


可 以 在 脚本 中 使 用 print() 函数 将 内 容 输 出 到 标准 输出 (stdout)， 如 上 面 的 脚本 所 
示 。 这 样 就 可 以 在 shell 中 使 用 管道 命令 。 如 果 将 shell 脚本 的 输出 管道 给 另 一 个 使 
用 --quiet 选项 的 命令 ， 就 可 以 让 shell 不 打印 “MongoDB shell version…” 提 示 。 











也 可 以 使 用 Load() 国 数 ， 从 交互 式 shell 中 运行 脚本 : 


> load("script1.js") 
I am script1.js 
” 


在 脚本 中 可 以 访问 db 变量 ,以 及 其 他 全 局 变量 。 然 而 ，shell 辅助 函数 (比如 "use 
db" 和 "show collections") 不 可 以 在 文件 中 使 用 。 这 些 辅助 函数 都 有 对 应 的 
JavaScript 函数 ， 如 表 2-1 所 示 。 





表 2-1 shell 辅 助 函数 对 应 的 JavaScript 函 数 





辅助 函数 等 价 函 数 

Use foo db .get9isterDB("foo") 
show dbs db .getMongo() .getDBs () 
show collections db.getCollectionNames() 


可 以 使 用 脚本 将 变量 注入 到 shell。 例 如 ， 可 以 在 脚本 中 简单 地 初始 化 一 些 常用 的 辅 
助 函 数 。 例 如 ， 下 面 的 脚本 对 于 本 书 的 复制 和 分 片 部 分 内 容 非 常 有 用 。 这 个 脚本 定 
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义 了 一 个 connectTo() 函数 ， 它 连接 到 指定 端口 处 的 一 个 本 地 数据 库 ， 并 且 将 db 
指向 这 个 连接 。 


// defineConnectTo.js 


A 
* 连接 到 指定 的 数据 库 ， 并 且 将 db 指向 这 个 连接 
yA 
var connectTo = function(port, dbname) { 
if (!port) { 
port = 27017 





} 


if (!dbname) { 
dbname = "test"; 


} 


db = connect("LocaLhost:"+port+"/"+dbname ) ; 
return db; 


}; 
如 果 在 shell 中 加 载 这 个 脚本 ，connectTo 函数 就 可 以 使 用 了 。 


> typeof connectTo 
undefined 

> load('defineConnectTo.js') 
> typeof connectTo 

function 


除了 添加 辅助 函数 ， 还 可 以 使 用 脚本 将 通用 的 任务 和 管理 活动 自动 化 。 


默认 情况 下 ，shell 会 在 运行 shell 时 所 处 的 目录 中 查找 脚本 (可 以 使 用 run ("pwd") 
命令 查看 ) 。 如 果 脚 本 不 在 当前 目录 中 ， 可 以 为 shell 指定 一 个 相对 路 径 或 者 绝对 路 
径 。 例 如 ， 如 果 脚 本 放置 在 ~/my-scripts 目录 中 ， 可 以 使 用 Load("/home/myUsery 
my-scripts/defineConnectTo.js") 命令 来 加 载 defineConnectTo.js。 注 意 ， 
Load 函数 无 法 解析 ~ 符号 。 


也 可 以 在 shell 中 使 用 run() 函数 来 执行 命令 行程 序 。 可 以 在 函数 参数 列表 中 指定 
程序 所 需 的 参数 : 

















> run("ls", "-l", "/home/myUser/my-scripts/") 

sh70352| -rw-r--r-- 1 myUser myUser 2012-12-13 13:15 defineConnectTo.js 
sh70532| -rw-r--r- 1 myUser myUser 2013-02-22 15:10 script1.js 
sh70532| -rw-r--r- 1 myUser myUser 2013-02-22 15:12 script2.js 
sh70532| -rw-r--r- 1 myUser myUser 2013-02-22 15:13 script3.js 


| 


通常 来 说 ， 这 种 使 用 方式 的 局 限 性 非常 大 ， 因 为 输出 格式 很 奇怪 ， 而 且 不 支持 管道 。 











2.7.3 创建 .mongorc.js 文 件 


如 果 某 些 脚本 会 被 频繁 加 载 ， 可 以 将 它们 添加 到 .mongorc.js 文件 中 。 这 个 文件 会 在 
启动 shell 时 自动 运行 。 




















例如 ， 我 们 希望 启动 成 功 时 让 shell 显示 一 句 欢迎 语 。 为 此 ， 我 们 在 用 户主 目录 下 创 
建 一 个 名 为 .mongorc.js 的 文件 ， 向 其 中 添加 如 下 内 容 : 





// mongorc.js 


var compliment = ["attractive", "intelligent", "like Batman"]; 
var index = Math.floor(Math.random()*3); 


print("Hello, you're looking particularly "+compliment[index]+" today!"); 


然后 ， 当 启动 shell 时 ， 就 会 看 到 这 样 一 些 内 容 


$ mongo 

MongoDB shell version: 2.4.0-pre- 

connecting to: test 

Hello, you're looking particularly like Batman today! 
> 





为 了 实用 ， 可 以 使 用 这 个 脚本 创建 一 些 自己 需要 的 全 局 变量 ， 或 者 是 为 太 长 的 名 字 
创建 一 个 简短 的 别名 ， 也 可 以 重 写 内 置 的 函数 。.mongorc.js 最 常见 的 用 途 之 一 是 
i “危险 ”的 shell 辅助 国 数 。 可 以 在 这 里 集中 重 写 这 些 方法 ， 比 如 为 
dropDatabase 或 者 deLeteIndexes 等 辅助 函数 添加 no 选项 ， 或 者 取消 它们 的 定义 。 











var no = function() { 
print("Not on my watch."); 
ps 





// 禁止 删除 数据 库 
db.dropDatabase = DB.prototype.dropDatabase = no; 


























// 禁止 删除 集合 
DBCollection.prototype.drop = no; 























// 禁止 删除 索引 
DBCollection.prototype.dropIndex = no; 








改变 数据 库 函 数 时 ， de db 变量 和 DB 原型 进行 改变 (如 上 例 所 示 )。 如 
果 只 改变 了 其 中 一 个 ， 那 么 db 变量 可 能 没有 改变 ， 或 者 这 些 改变 在 新 使 用 的 所 有 
数据 库 (运行 use anotherDB son 中 都 不 会 生效 


























现在 ， 如 果 试 图 调用 这 些 国 数 ， 就 会 得 到 一 条 错误 提示 。 注 意 ， 这 种 方式 并 不 能 保 
护 数据 库 免 受 恶意 用 户 的 攻击 ， 只 能 预防 自己 的 手 误 。 
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如 果 在 启动 shell 时 指定 - -norc 参数 ， 就 可 以 禁止 加 载 .mongorc.js。 


2.7.4 定制 shell 提 示 

将 prompt 变量 设 为 一 个 字符 串 或 者 函数 ， 就 可 以 重 写 默 认 的 shell 提示 。 例 如 ， 如 
果 正 在 运行 一 个 需要 耗 时 几 分 钟 的 查询 ， 你 可 能 希望 完成 时 在 shell 提示 中 输出 当前 
时 间 ， 这 样 就 可 以 知道 最 后 一 个 操作 的 完成 时 间 了 。 














prompt = function() { 
return (new Date())+"> " 


二 
另 一 个 方便 的 提示 是 显示 当前 使 用 的 数据 库 : 


prompt = function() { 
if (typeof db == 'undefined') { 
return '(nodb)> ' 


} 


// 检查 最 后 的 数据 库 操作 
try { 
db.runCommand({getLastError:1}); 


} 
catch (e) { 
print(e); 


} 


return db+"> " 


把 








注意 ， 提 示 函 数 应 该 返回 字符 串 ， 而 且 应 该 小 心 齐 慎 地 处 理 异 常 : 如 果 提 示 中 出 现 
了 异常 会 对 用 户 造 成 困惑 ! 

通常 来 说 ， 提 示 函 数 中 应 该 包含 对 getLastError 的 调用 。 这 样 可 以 捕获 数据 库 错 
误 ， 而且 可 以 在 shell 断 开 时 自动 重新 连接 (比如 重启 了 mongod) 。 


可 以 在 .mongorc.js 中 定制 自己 想 要 的 提示 。 也 可 以 定制 多 个 提示 ， 在 shell 中 可 以 
自由 切换 。 














2.7.5 ”编辑 复合 变量 

shell 的 多 行 支持 是 非常 有 限 的 : 不 可 以 编辑 之 前 的 行 。 如 果 编 辑 到 第 15 行 时 发 现 
1 行 有 个 错误 ， 那 会 让 人 非常 愧 恼 。 因 此 ， 对 于 大 块 的 代码 或 者 是 对 象 ， 你 可 能 

更 愿意 在 编辑 器 中 编辑 。 为 了 方便 地 调用 编辑 器 ， 可 以 在 shell 中 设置 EDITOR 变量 

(也 可 以 在 环境 变量 中 设置 ) : 
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> EDITOR="/usr/bin/emacs" 














现在 ， 如 果 想 要 编辑 一 个 变量 ， 可 以 使 用 "edit 变量 名 " 这 个 命令 ， 比 如 : 








> var wap = db.books.findOne({title: "War and Peace"}) 
> edit wap 


修改 完成 之 后 ， 保 存 并 退出 编辑 器 。 变 量 就 会 被 重新 解析 然后 加 载 回 shell。 


在 .mongorc.js 文件 中 添加 一 行内 容 ，EDITOR=" 编辑 器 路 径 "; ， 以 后 就 不 必 单 独 设 
置 EDITOR 变量 了 。 





2.7.6 ”集合 命名 注意 事项 
可 以 使 用 db.collectionName 获取 一 个 集合 的 内 容 ， 但 是 ， 如 果 集 合 名称 中 包含 
保留 字 或 者 无 效 的 JavaScript 属性 名 称 ，db.coLLectionName 就 不 能 正常 工作 了 。 




















假设 要 访问 version 集合 ， 不 能 直接 使 用 db.version， 因 为 db.version 是 db 的 
一 个 方法 (会 返回 当前 MongoDB 服务 器 的 版 本 ) : 

> db.version 

function () { 


return this.serverBuildInfo().version; 


} 
为 了 访问 version 集合 ， 必 须 使 用 getCollection 函数 : 


> db.getCollection("version"); 
test.version 


如 果 集 合 名 称 中 包含 无 效 的 JavaScript 属性 名 称 (比如 foo-bar-baz 和 123abc)， 也 
可 以 使 用 这 个 函数 来 访问 相应 的 集合 。( 注 意 ，JavaScript 属性 名 称 只 能 包含 字母 、 
数字 ， 以 及 "$" 和 "" 字符 ， 而 且 不 能 以 数字 开头 。) 


还 有 一 种 方法 可 以 访问 以 无 效 属性 名 称 命 名 的 集合 ， 那 就 是 使 用 数组 访问 语法 : 在 
JavaScript 中 ，x.y 等 同 于 x['y']。 也 就 是 说 ， 除 了 名 称 的 字面 量 之 外 ， 还 可 以 使 
用 变量 访问 子 集合 。 因 此 ， 如 果 需 要 对 blog 的 每 一 个 子 集合 进行 操作 ， 可 以 使 用 如 
下 方式 进行 迭代 : 











var collections = ["posts", "comments", "authors"]; 

for (var i in collections) { 
print(db.blog[collections[i]]); 

} 


而 不 必 这 样 : 
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print(db.bLog.posts) 
print(db.bLog.comments ) ; 
print(db.blog.authors); 


注意 ， 不 能 使 用 db.blog.i， 这 样 会 被 解释 为 test.blog.i， 而 不 是 test.blog.posts。 必 须 
使 用 db.blog[i] 语法 才能 将 i 解释 为 相应 的 变量 。 


可 以 使 用 这 种 方式 来 访问 那些 名 字 怪 异 的 集合 : 








> Var name = "@#&!" 
> db[name].find() 





直接 使 用 db .@#&! 进行 查询 是 非法 的 ， 但 是 可 以 使 用 db [name] 。 
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创建 、 更 新 和 删除 文 树 








本 章 会 介绍 对 数据 库 移 和 人 /移出 数据 的 基本 操作 ， 有 具体 包含 如 下 操作 : 
。 向 集合 添加 新 文档 ; 
。 从 集合 里 删除 文档 ， 
。 更 新 现 有 文档 ; 

。 为 这 些 操作 选择 合适 的 安全 级 别 和 速度 。 


3.1 插入 并 保存 文档 


插入 是 向 MongoDB 中 添加 数据 的 基本 方法 。 可 以 使 用 insert 方法 向 目标 集合 插 
入 一 个 文档 : 











> db.foo.insert({"bar" : "baz"}) 
这 个 操作 会 给 文档 自动 增加 一 个 "_id" 键 (要 是 原来 没有 的 话 )， 然 后 将 其 保存 到 
MongoDB 中 。 


3.1.1 批量 插入 
如 果 要 向 集合 中 插入 多 个 文档 ， 使 用 批量 插入 会 快 一 些 。 使 用 批量 插入 ， 可 以 将 一 
组 文档 传递 给 数据 库 。 


在 shell 中 ， 可 以 使 用 batchInsert 函数 实现 批量 插入 ， 它 与 Insert 国 数 非 常 像 ， 





29 


只 是 它 接受 的 是 一 个 文档 数组 作为 参数 : 


> db.foo.batchInsert([{ id" : 0}, {" id" :; 1}, {" id" : 2}]) 
> db.foo.find() 

{ "_id 
{Od 
{ "_id" 


一 次 发 送 数 十 、 数 百 乃 至 数 千 个 文档 会 明显 提高 插入 的 速度 。 


只 有 需要 将 多 个 文档 插入 到 一 个 集合 时 ， 这 种 方式 才 会 有 用 。 不 能 在 单 次 请 求 中 将 
多 个 文档 批量 插入 到 多 个 集合 中 。 要 是 只 导入 原始 数据 (例如 ， 从 数据 feed 或 者 
MySQL 中 导入 )， 可 以 使 用 命令 行 工具 ， 如 mongoimport， 而 不 是 批量 插入 。 另 一 
方面 ， 可 以 使 用 批量 插入 在 将 数据 存 入 MongoDB 之 前 对 数据 做 一 些小 的 修整 (将 
日 期 转换 为 日 期 类 型 ， 或 添加 自 定义 的 " id")， 这 样 批量 插入 也 可 用 于 导入 数据 。 
当前 版 本 的 MongoDB 能 接受 的 最 大 消息 长 度 是 48 MB， 所 以 在 一 次 批量 插入 中 能 
插入 的 文档 是 有 限制 的 。 如 果 试 图 插入 48 MB 以 上 的 数据 ， 多 数 驱动 程序 会 将 这 个 
批量 插入 请 求 拆 分 为 多 个 48 MB 的 批量 插入 请 求 。 具 体 可 以 查看 所 使 用 的 驱动 程序 
的 相关 文档 。 

如 果 在 执行 批量 插入 的 过 程 中 有 一 个 文档 插入 失败 ， 那 么 在 这 个 文档 之 前 的 所 有 文 
档 都 会 成 功 插入 到 集合 中 ， 而 这 个 文档 以 及 之 后 的 所 有 文档 全 部 插入 失败 。 


> db.foo.batchInsert([{" id" : 0}, {" id" : 1}, {" id" : 1}, {" id" : 2}]) 























只 有 前 两 个 文档 会 被 插入 ， 因 为 插入 第 三 个 文档 时 会 发 生 错误 : 集合 中 已 经 存在 一 
个 _id 为 1 的 文档 ， 不 能 重复 插入 。 


在 批量 插入 中 遇 到 错误 时 ， 如 果 希 望 batchInsert 忽略 错误 并 且 继 续 执行 后 续 插 
入 ， 可 以 使 用 continue0nError 选项 。 这 样 就 可 以 将 上 面 例子 中 的 第 一 个 、 第 二 
个 以 及 第 四 个 文档 都 插入 到 集合 中 。shell 并 不 支持 这 个 选项 ， 但 是 所 有 驱动 程序 都 
支持 。 


3.1.2 插入 校 验 

插入 数据 时 ，MongoDB 只 对 数据 进行 最 基本 的 检查 : 检查 文档 的 基本 结构 ， 如 果 没 
有 "_id" 字段 ， 就 自动 增加 一 个 。 检 查 大 小 就 是 其 中 一 项 基本 结构 检查 : 所 有 文档 
都 必须 小 于 16 MB (这 个 值 是 MongoDB 设计 者 人 为 定 的 ， 未 来 有 可 能 会 增加 )。 作 
这 样 的 限制 主要 是 为 了 防止 不 良 的 模式 设计 ， 并 且 保 证 性 能 一 致 。 如 果 要 查看 doc 
文档 的 BSON 大 小 (单位 为 字 节 )， 可 以 在 shell 中 执行 0bject.bsonsize(doc)。 
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16 MB 的 数据 究竟 有 多 大 ? 要 知道 整 部 《战争 与 和 平 》 也 才 3.14 MB 。 

由 于 MongoDB 只 进行 最 基本 的 检查 ， 所 以 插入 非法 数据 很 容易 (如 果 你 想 这 么 干 
的 话 )。 因 此 ， 应 该 只 允许 信任 的 源 (比如 你 的 应 用 程序 服务 器 ) 连接 数据 库 。 主 流 
语言 的 所 有 驱动 程序 (以 及 大 部 分 其 他 语言 的 驱动 程序 )， 都 会 在 将 数据 插入 到 数据 
库 之 前 做 大 量 的 数据 校 验 (比如 文档 是 否 过 大 ， 文 档 是 否 包 含 非 UTF-8 字符 串 ， 是 
否 使 用 不 可 识别 的 类 型 )。 


3.2 删除 文档 


现在 数据 库 中 有 些 数据 ， 要 删除 它 : 




















> db.foo.remove() 
上 述 命令 会 删除 foo 集合 中 的 所 有 文档 。 但 是 不 会 删除 集合 本 身 ， 也 不 会 删除 集合 
的 元 信息 。 


remove 国 数 可 以 接受 一 个 查询 文档 作为 可 选 参数 。 给 定 这 个 参数 以 后 ， 只 有 符合 
条 件 的 文档 才 被 删除 。 例 如 ， 假 设 要 删除 mailing.list 集合 中 所 有 "opt-out'" 为 
true 的 人 : 


> db.mailing.list,.remove({"opt-out" : true}) 


删除 数据 是 永久 性 的 ， 不 能 撤销 ， 也 不 能 恢复 。 


删除 速度 
删除 文档 通常 很 快 ， 但 是 如 果 要 清空 整个 集合 ， 那 么 使 用 drop 直接 删除 集合 会 更 
快 (然后 在 这 个 空 集合 上 重建 各 项 索引 )。 
例如 ,使 用 如 下 方法 插入 一 百 万 个 测试 数据 : 
> for (var i = 0; i < 1000000; i++) { 
.. db.tester.insert({"foo": "bar", "baz": i, "z": 10 - i}) 


.} 


现在 把 刚 插入 的 文档 都 删除 ， 并 记录 花费 的 时 间 。 首 先 使 用 remove 进行 删除 











> var timeRemoves = function() { 
.. Var start = (new Date()).getTime(); 


.. db.tester.remove(); 
.. db.findone(); // makes sure the remove finishes before continuing 





这 
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. Var timeDiff = (new Date()).getTime() - start; 
. print("Remove took: "+timeDiff+"ms"); 
六 夸 


> timeRemoves() 





在 MacBookAir 笔记 本 电脑 上 ， 这 段 脚本 输出 “Removetook:9676ms ” 。 








如 果 用 db.tester.drop() 代替 remove 和 findone， 只 用 1 ms ! 速度 提升 相当 
明显 ， 但 也 是 有 代价 的 : 不 能 指定 任何 限定 条 件 。 整 个 集合 都 被 删除 了 ， 所 有 元 数 
据 也 都 不 见 了 。 


3.3 ”更 新 文档 


文档 存 入 数据 库 以 后 ， 就 可 以 使 用 update 方法 来 更 新 它 。update 有 两 个 参数 ， 一 
个 是 查询 文档 ， 用 于 定位 需要 更 新 的 目标 文档 ， 另 一 个 是 修改 器 (modifier) 文档 ， 
用 于 说 明 要 对 找到 的 文档 进行 哪些 修改 。 

更 新 操作 是 不 可 分 割 的 : 若是 两 个 更 新 同时 发 生 ， 先 到 达 服 务 器 的 先 执行 ， 接 着 执 
行 另 外 一 个 。 所 以 ， 两 个 需要 同时 进行 的 更 新 会 迅速 接连 完成 ， 此 过 程 不 会 破坏 文 
档 : 最 新 的 更 新 会 取得 “胜利 ”。 


3.3.1 文档 替换 
最 简单 的 更 新 就 是 用 一 个 新 文档 完全 替换 匹配 的 文档 。 这 适用 于 进行 大 规模 模式 迁 
移 的 情况 。 例 如 ， 要 对 下 面 的 用 户 文档 做 一 个 比较 大 的 调整 








{ 
" id" : ObjectId("4b2b9f67alf631733d917a7a")， 
"name" : "joe", 
"friends" : 32， 
"enemies" : 2 
3 


我 们 希望 将 "friends" 和 "enemies" 两 个 字段 移 到 "relationships" 子 文档 中 。 
可 以 在 shell 中 改变 文档 的 结构 ， 然 后 使 用 update 替换 数据 库 中 的 当前 文档 : 





> var joe = db.users.findOne({"name" : "joe"}); 
> joe.relationships = {"friends" : joe.friends, "enemies" : joe.enemies}; 
{ 


"friends" : 32， 
"enemies" : 2 
}> joe.username = joe.name; 
"joe" 
> delete joe.friends; 
true 
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> delete joe.enemies ; 
true 

> delete joe.name; 
true 


> db.users.update({"name" : "joe"}, joe); 


现在 ,用 find0ne 查看 更 新 后 的 文档 结构 。 








{ 
"_id" : ObjectId("4b2b9f67a1lf631733d917a7a")， 
"username" : "joe", 
"relationships" : { 
"friends" : 32， 
"enemies" : 2 
} 
} 


一 个 常见 的 错误 是 查询 条 件 匹 配 到 了 多 个 文档 ， 然 后 更 新 时 由 于 第 二 个 参数 的 存在 














就 产生 重复 的 " id" 值 。 数 据 库 会 抛 出 错误 ， 任 何 文档 都 不 会 更 新 。 
例如 ， 有 好 几 个 文档 都 有 相同 的 “name" 值 ， 但 是 我 们 没有 意识 到 : 





> db.people.Nnd() 


{"_id" : ObjectId("4b2b9f67alf631733d917a7b"), "name" : "joe", "age" 
{"_id" : ObjectId("4b2b9f67alf631733d917a7c"), "name" : "joe", "age" 
{"_id" : ObjectId("4b2b9f67alf631733d917a7d"), "name" : "joe", "age" 





现在 如 果 第 二 个 Joe 过 生日 ， 要 增加 "age" 的 值 ， 我 们 可 能 会 这 么 做 : 





> joe = db.people.findOne({"name" : "joe", "age" : 20}); 
{ 

"_id" : ObjectId("4b2b9f67alf631733d917a7c")， 

"name" : "joe", 

"age" : 20 
} 


> joe.aget+; 
> db.people.update({"name" : "joe"}, joe); 
E11001 duplicate key on update 


: 65}, 
: 20}, 
: 49}, 


到 底 怎 么 了 ? 调用 update 时 ， 数 据 库 会 查找 一 个 "name" 值 为 "Joe" 的 文档 。 找 
到 的 第 一 个 是 65 岁 的 Joe。 然 后 数据 库 试 着 用 变量 joe 中 的 内 容 替换 找到 的 文档 ， 


但 是 会 发 现 集合 里 面 已 经 有 一 个 具有 同样 "id" 的 文档 。 所 以 ， 更 新 就 会 失败 ， 因 





为 "id" 值 必须 唯一 。 为 了 避免 这 种 情况 ， 最 好 确保 更 新 时 总 是 指定 一 个 唯一 文 
档 ， 例 如 使 用 "_id" 这 样 的 键 来 匹配 。 对 于 上 面 的 例子 ， 这 才 是 正确 的 更 新 方法 : 





> db.peopte.update({” id" 


: ObjectId("4b2b9f67alf631733d917a7c")}, joe) 





使 用 "_id" 作为 查询 条 件 比 使 用 随机 字段 速度 更 快 ， 因 为 是 通过 "_id" 建立 的 索 








引 。 第 5 章 会 介绍 索引 对 更 新 和 其 他 操作 的 影响 。 
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3.3.2 ”使 用 修改 器 

通常 文档 只 会 有 一 部 分 要 更 新 。 可 以 使 用 原子 性 的 更 新 修改 器 (update modifier ) ， 
指定 对 文档 中 的 某 些 字段 进行 更 新 。 更 新 修改 器 是 种 特殊 的 键 ， 用 来 指定 复杂 的 更 
新 操作 ， 比 如 修改 、 增 加 或 者 删除 键 ， 还 可 能 是 操作 数组 或 者 内 和 肯 文 档 。 
假设 要 在 一 个 集合 中 放置 网 站 的 分 析 数 据 ， 只 要 有 人 访问 页 面 ， 就 增加 计数 器 。 可 
以 使 用 更 新 修改 器 原子 性 地 完成 这 个 增加 。 每 个 URL 及 对 应 的 访问 次 数 都 以 如 下 方 
式 存储 在 文档 中 : 

















{ 
"_id" : ObjectId("4b253b067525f35f94b60a31")， 
"Url" : "www.example.com", 
"pageviews" : 52 

} 


每 次 有 人 访问 页 面 ， 就 通过 URL 找 到 该 页 面 ， 并 用 "$inc" 修改 器 增加 
"pageviews" 的 值 。 


> db.analytics.update({"url" : "ww.example.com"}, 
... {"$inc" : {"pageviews" : 1}}) 


现在 ， 执 行 一 个 find 操作 ， 会 发 现 "pageviews" 的 值 增加 了 1。 


> db.analytics.find() 


{ 
"” id" : ObjectId("4b253b067525f35f94b60a31")， 
"url" : "www.example.com", 
"pageviews" : 53 

3 


使 用 修改 器 时 ，" id" 的 值 不 能 改变 。( 注 意 ， 整 个 文档 替换 时 可 以 改变 " id"。) 
其 他 键 值 ， 包 括 其 他 唯一 索引 的 键 ， 都 是 可 以 更 改 的 。 

1. "$set" 修 改 器 入 门 

"$set" 用 来 指定 一 个 字段 的 值 。 如 果 这 个 字段 不 存在 ， 则 创建 它 。 这 对 更 新 模式 
或 者 增加 用 户 定义 的 键 来 说 非常 方便 。 例 如 ， 用 户 资料 存储 在 下 面 这 样 的 文档 里 : 





> db.users.findone() 


{ 
"_id" : ObjectId("4b253b067525f35f94b60a31")， 
"name" : "joe", 
"age" : 30, 
"sex" : "male", 
"location" : "Wisconsin" 
= 





非常 简要 的 一 段 用 户 信息 。 要 想 添 加 喜欢 的 书籍 进去 ， 可 以 使 用 "$set": 





> db.users.update({" id" : ObjectId("4b253b067525f35f94b60a31")}, 
... {"$set" : {"favorite book" : "War and Peace"}}) 





之 后 文档 就 有 了 "favorite book" 键 。 


> db.users.findone() 


{ 
"_id" : ObjectId("4b253b067525f35f94b60a31")， 
"name" : "joe", 
"age" : 30, 
"sex" : "male", 
"location" : "Wisconsin", 
"favorite book" : "War and Peace" 
} 





要 是 用 户 觉得 喜欢 的 其 实 是 另外 一 本 书 ，"$set" 又 能 帮 上 忙 了 





> db.users.update({"name" : "joe"}, 
... {"$set" : {"favorite book" : "Green Eggs and Ham"}}) 


用 "$set" 甚至 可 以 修改 值 的 类 型 。 例 如 ， 如 果 用 户 觉得 喜欢 很 多 本 书 ， 就 可 以 将 
"favorite book" 键 的 值 变 成 一 个 数组 ， 
> db.users.update({"name" : "joe"}, 


... {"$set" : {"favorite book" 
["Cat's Cradle", "Foundation Trilogy", "Ender's Game"]}}) 


如 果 用 户 突 然 发 现 自己 其 实 不 爱 读书 ， 可 以 用 "$unset" 将 这 个 键 完 全 删除 : 


> db.users.update({"name" : "joe"}, 
... {"$unset" : {"favorite book" : 1}}) 


现在 这 个 文档 就 和 刚 开始 时 一 样 了 。 
也 可 以 用 "$set" 修改 内 秽 文 档 ; 








> db.bLog.posts.findone() 


{ 
"_id" : ObjectId("4b253b067525f35f94b60a31")， 
"title" : "A Blog Post", 
"eontent™ > ,sy 
"author" : { 
"name" : "joe", 
"email" : "joe@example.com" 
} 
} 
> db.blog.posts.update({"author.name" : "joe"}, 
... {"$set" : {"author.name" : "joe schmoe"}}) 


> db.bLog.posts.findone() 
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"_id" : ObjectId("4b253b067525f35f94b60a31")， 
"title" : "A Blog Post", 
"content® 2% sy 
"author"” : { 
"name" : "joe schmoe", 
"email" : "joe@Qexample.com" 


} 


增加 、 修 改 或 删除 键 时 ， 应 该 使 用 $ 修改 器 。 要 把 "foo" 的 值 设 为 "bar"， 常 见 的 
省 误 做 法 如 下 : 


> db.coll.update(criteria, {"foo" : "bar"}) 





这 会 事与愿违 。 实 际 上 这 会 将 整个 文档 用 {"foo":"bar"} 替换 掉 。 一 定 要 使 用 以 
$ 开头 的 修改 器 来 修改 键 / 值 对 。 

2. 增加 和 减少 

"$inc" 修改 器 用 来 增加 已 有 键 的 值 ， 或 者 该 键 不 存在 那 就 创建 一 个 。 对 于 更 新 分 
析 数 据 、 因 果 关 系 、 投 票 或 者 其 他 有 变化 数值 的 地 方 ， 使 用 这 个 都 会 非常 方便 。 
假如 建立 了 一 个 游戏 集合 ， 将 游戏 和 变化 的 分 数 都 存储 在 里 面 。 比 如 用 户 玩 弹 球 
(pinball) 游戏 ， 可 以 插入 一 个 包含 游戏 名 和 玩家 的 文档 来 标识 不 同 的 游戏 : 


























> db.games.insert({"game" : "pinball", "user" : "joe"}) 





要 是 小 球 撞 到 了 砖 块 ， 就 会 给 玩家 加 分 。 分 数 可 以 随便 给 ， 这 里 就 把 玩家 得 分 基数 
约定 成 50 好 了 。 使 用 "$inc" 修改 器 给 玩家 加 50 分 : 


> db.games.update({"game" : "pinball", "user" : "joe"}, 
... {"$inc" : {"score" : 50}}) 


更 新 后 ， 可 以 看 到 : 


> db.games.findone() 


{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"game" : "pinball", 
"user" : "joe", 
"score" : 50 
} 





分 数 (score) 键 原来 并 不 存在 ， 所 以 "$inc" 创建 了 这 个 键 ， 并 把 值 设 定 成 增加 量 : 
S30, 


如 果 小 球 落 入 加 分 区 ， 要 加 10 000 分 。 只 要 给 "$inc" 传递 一 个 不 同 的 值 就 好 了 : 
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> db.games.update({"game" : "pinball", "user" : "joe"}, 
... {"$inc" : {"score" : 10000}}) 





现在 来 看 看 结果 : 

> db.games.find() 

{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"game" : "pinball", 
"user" : "joe", 
"score" : 10050 

} 


"score" 键 已 经 有 了 ， 而 且 有 一 个 数字 类 型 的 值 ， 所 以 服务 器 就 给 这 个 值 增加 了 10 000。 


"$inc" 与 "$set" 的 用 法 类 似 ， 就 是 专门 来 增加 (和 减少 ) 数字 的 。"$inc" 只 能 
用 于 整 型 、 长 整 型 或 双 精 度 浮 点 型 的 值 。 要 是 用 在 其 他 类 型 的 数据 上 就 会 导致 操作 
失败 ， 例 如 null、 布 尔 类 型 以 及 数字 构成 的 字符 串 ， 而 在 其 他 很 多 语言 中 ， 这 些 类 
型 都 会 自动 转换 为 数值 类 型 。 

> db.foo.insert({"count" : "1"}) 


> db.foo.update({}, {"$inc" : {"count" : 1}}) 
Cannot apply $inc modifier to non-number 








另外 ,， "$inc" 键 的 值 必 须 为 数字 。 不 能 使 用 字符 串 、 数 组 或 其 他 非 数字 的 值 。 否 
则 就 会 提示 “Modifier "$inc" allowed for numbers only” (修改 器 "$inc'" 只 允许 使 
用 数值 类 型 ) 这 样 的 错误 。 要 修改 其 他 类 型 ， 应 该 使 用 "$set" 或 者 一 会 儿 要 讲 到 
的 数组 修改 器 。 


3. 数组 修改 器 
有 一 大 类 很 重要 的 修改 器 可 用 于 操作 数组 。 数 组 是 常用 且 非 常 有 用 的 数据 结构 : 它 
们 不 仅 是 可 通过 索引 进行 引用 的 列表 ， 而 且 还 可 以 作为 数据 集 (set) 来 用 。 


4. 添加 元 素 

如 果 数 组 已 经 存在 ，"$push" 会 向 已 有 的 数组 末尾 加 入 一 个 元 素 ， 要 是 没有 就 
创建 一 个 新 的 数组 。 例 如 ,假设 要 存储 博客 文章 ， 要 添加 一 个 用 于 保存 数组 的 
"comments" (评论 ) 键 。 可 以 向 还 不 存在 的 "comments" 数组 添加 一 条 评论 ， 这 
个 数组 会 被 自动 创建 ， 并 加 入 一 条 评论 : 








> db.bLog.posts.findone() 


{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"title" : "A blog post", 
"content™” :; "..." 

} 





创建 、 更 新 和 删除 文档 | 37 








> db.blog.posts.update({"title" : "A blog post"}, 
. {"$push" : {"comments" : 
{"name" : "joe", "email" : "joe@Gexample.com", 
"content" : "nice post."}}}) 
> 区 全 blLog.posts.findone() 
{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"title" : "A blog post", 
oomtent a ary 
"comments" : [ 
{ 
"name" : "joe", 
"email" : "joe@example.com", 
"content" : "nice post." 


要 是 还 想 添加 一 条 评论 ， 继 续 使 用 "$push": 


> db.blog.posts.update({"title" : "A blog post"}, 
. {"$push" : {"comments" : 
{"name" : "bob", "email" : "bob@example.com", 
"content" : "good post."}}}) 
> ‘ab. blLog.posts.findone() 
{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"title" : "A blog post", 
"coNntent™ s Vv "i 
"comments" : [ 
{ 
"name" : "joe", 
"email" : "joe@example.com", 
"content" : "nice post." 


"name" : "bob", 
"email" : "bob@example.com", 
"content" : "good post." 


一 种 比较 简单 的 "$push" 使 用 形式 ， et 
使 用 "$each" 子 操作 符 ， 可 以 通过 一 次 "$push" 操作 添加 多 个 值 。 


> db.stock.ticker.update({" id" : "G00G"}, 
. {"$push" : {"hourly" : {"$each" : [562.776, 562.790, 559.123]}}}) 


这 样 就 可 以 将 三 个 新 元 素 添 加 到 数组 中 。 如 果 指 定 的 数组 中 只 含有 一 个 元 素 ， 那 这 
个 操作 就 等 同 于 没有 使 用 "$each" 的 普通 "$push" 操作 。 

















如 果 和 希望 数组 的 最 大 长 度 是 固定 的 ， 那 么 可 以 将 "$sLice" 和 "$push" 组 合 在 一 起 
使 用 ， 这 样 就 可 以 保证 数组 不 会 超出 设 定好 的 最 大 长 度 ， 这 实际 上 就 得 到 了 一 个 最 
多 包含 N 个 元 素 的 数组 : 
> db.movies.update({"genre" : "horror"}, 

. {"$push" : {"top10" : { 


"$each" : ["Nightmare on ELm Street", "Saw"], 
"$slice"” : -10}}}) 


这 个 例子 会 限制 数组 只 包含 最 后 加 入 的 10 个 元 素 。"$slice" 的 值 必 须 是 负 整 数 。 





ss 


如 果 数 组 的 元 素数 量 小 于 10("$push" 之 后 ) ， 那 么 所 有 元 素 都 会 保留 。 如 果 数 组 
的 元 素数 量 大 于 10， 那 么 只 有 最 后 10 个 元 素 会 保留 。 因 此 ，"$sLice'" 可 以 用 来 在 


文档 中 创建 一 个 队列 。 
最 后 ， 可 以 在 清理 元 素 之 前 使 用 "$sort"， 只 要 向 数组 中 添加 子 对 象 就 需要 清理 : 

















> db.movies.find({"genre" : "horror"}, 
. {"$push" : {"top10" : { 
"$each" : [{"name" : "Nightmare on ELm Street", "rating" : 6.6}, 
{"name" : "Saw", "rating" : 4.3}], 
"$slice" : -10, 
"$sort" : {"rating" : -1}}}}) 
这 样 会 根据 "rating" 字段 的 值 对 数组 中 的 所 有 对 象 进 行 排序 ， 然 后 保留 前 10 个 。 注 


意 ， 不 能 只 将 "$slice" 或 者 "$sort" 与 "$push" 配合 使 用 ， 日 必须 使 用 "$each", 


5. 将 数组 作为 数据 集 使 用 
你 可 能 想 将 数组 作为 数据 集 使 用 ， 保 证 数组 内 的 元 素 不 会 重复 。 可 以 在 查询 文档 中 
用 "$ne" 来 实现 。 例 如 ， 要 是 作者 不 在 引文 列表 中 ， 就 添加 进去 ， 可 以 这 么 做 : 





> db.papers.update({"authors cited" : {"$ne" : "Richie"}}, 
. {$push : {"authors cited" : "Richie"}}) 


也 可 以 用 "$addToSet" 来 实现 ， 要 知道 有 些 情况 "$ne" 根本 行 不 通 ， 有 些 时 候 更 
适合 用 "$addToSet"。 


例如 ， 有 一 个 表示 用 户 的 文档 ， 已 经 有 了 电子 邮件 地 址 的 数据 集 : 


> db.users.findOne({" id" : ObjectId("4b2d75476cc613d5ee930164")}) 
{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"username" : "joe", 
"emails" : [ 
"joe@example.com", 
"joe@gmail.com", 
"joe@yahoo.com" 
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} 


添加 新 地 址 时 ， 用 "$addToSet" 可 以 避免 插入 重复 地 址 : 


> db.users.update({" id" : ObjectId("4b2d75476cc613d5ee930164")}, 
... {"$addToSet" : {"emails" : "joe@gmail.com"}}) 
> db.users.NndOone({" id" : ObjectId("4b2d75476cc613d5ee930164")}) 
{ 
"_ id" : ObjectId("4b2d75476cc613d5ee930164")， 
"username" : "joe", 
"emails" : [ 
"joe@example.com", 
"joe@gmail.com", 
"joe@yahoo.com", 
] 
} 
> db.users.update({" id" : ObjectId("4b2d75476cc613d5ee930164")}, 
... {"$addToSet" : {"emails" : "joe@hotmail.com"}}) 
> db.users.NndOone({" id" : ObjectId("4b2d75476cc613d5ee930164")}) 
{ 
"_ id" : ObjectId("4b2d75476cc613d5ee930164")， 
"username" : "joe", 
"emails" : [ 
"joe@example.com", 
"joe@gmail.com", 
"joe@yahoo.com", 
"joe@hotmail.com" 


} 


将 "$addToSet" 和 "$each" 组 合 起 来 ， 可 以 添加 多 个 不 同 的 值 ， 而 用 "$ne" 和 
"$push" 组 合 就 不 能 实现 。 例 如 ， 想 一 次 添加 多 个 邮件 地 址 ， 就 可 以 使 用 这 些 修 
改 器 : 


> db.users.update({" id" : ObjectId("4b2d75476cc613d5ee930164")}, {"$addToSet" 
... {"emails" : {"$each" 
["joe@php.net", "joe@Gexample.com", "joe@python.org"]}}}) 
> db.users.NndOone({" id" : ObjectId("4b2d75476cc613d5ee930164")}) 
{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"username" : "joe", 
"emails" : [ 
"joe@example.com", 
"joe@gmail.com", 
"joe@yahoo.com", 
"joe@hotmail.com" 
"joe@php.net" 
"joe@python.org" 





6. 删除 元 素 

有 几 个 从 数组 中 删除 元 素 的 方法 。 若是 把 数组 看 成 队列 或 者 栈 ， 可 以 用 "$pop"， 
这 个 修改 器 可 以 从 数组 任何 一 端 删 除 元 素 。{"$pop":{"key":1}} 从 数组 末尾 删除 
一 个 元 素 ，{"$pop":{"key":-1}} 则 从 头 部 删除 。 


有 时 需要 基于 特定 条 件 来 删除 元 素 ， 而 不 仅仅 是 依据 元 素 位 置 ， 这 时 可 以 使 用 
"$pull"。 例 如 ， 有 一 个 无 序 的 待 完成 事项 列表 : 





























> db.lists.insert({"todo" : ["dishes", "laundry", "dry cleaning"]}) 
如 果 我 们 先 完成 了 洗衣 服 (laundry)， 就 可 以 用 下 面 的 方式 删除 它 : 
> db.lists.update({}, {"s$pull" : {"todo" : "laundry"}}) 


过 查找 ,会 发 现 只 有 两 个 元 素 了 : 


> db.lists.find() 


{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
vtodom re [ 
"dishes", 
"dry cleaning" 
] 
} 


"$pull" 会 将 所 有 匹配 的 文档 删除 ， 而 不 是 只 删除 一 个 。 对 数组 [1,1,2,1] 执行 
puLL 1， 结 果 得 到 只 有 一 个 元 素 的 数组 [2]。 


数组 操作 符 只 能 用 于 包含 数组 值 的 键 。 例 如 ， 不 能 将 一 个 整数 插入 数组 ， 也 不 能 将 

一 个 字符 串 从 数组 中 弹出 。 要 修改 标量 值 ， 使 用 "$set" 或 者 "$inc"。 

7. 基于 位 置 的 数组 修改 器 
是 数组 有 多 个 值 ， 而 我 们 只 想 对 其 中 的 一 部 分 进行 操作 ， 就 需要 一 些 技巧 。 有 两 
种 方法 操作 数组 中 的 值 : 通过 位 置 或 者 定位 操作 符 ("$")。 

数组 下 标 都 是 以 0 开头 的 ， 可 以 将 下 标 直 接 作为 键 来 选择 元 素 。 例 如 ， 这 里 有 个 文 

档 ， 其 中 包含 由 内 租 文 档 组 成 的 数组 ， 比 如 包含 评论 的 博客 文章 。 











> db.blog.posts.findOne() 


{ 
Uo de Objectrde 4b329a216cc613d5ee930192" ) ， 


"content" 
"comments" : [ 
{ 
"comment" : "good post", 
"author" : "John", 
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"votes" : 0 


}, 

{ 
"comment" : "i thought it was too short", 
"author" : "Claire", 
"votes" : 3 

}, 

{ 
"comment" : "free watches", 
"author"” : "Alice", 
"votes" : -1 

} 


} 
如 果 想 增加 第 一 个 评论 的 投票 数量 ， 可 以 这 么 做 : 


> db.blog.update({"post" : post id}, 
... {"$inc" : {"comments.0.votes" : 1}}) 


但 是 很 多 情况 下 ， 不 预先 查询 文档 就 不 能 知道 要 修改 的 数组 的 下 标 。 为 了 克服 这 个 
困难 ，MongoDB 提供 了 定位 操作 符 "$"， 用 来 定位 查询 文档 已 经 匹配 的 数组 元 素 ， 
并 进行 更 新 。 例 如 ， 要 是 用 户 John 把 名 字 改 成 了 Jim， 就 可 以 用 定位 符 替 换 他 在 评 
论 中 的 名 字 








db.blog.update({"comments.author" : "John"}, 
... {"$set" : {"comments.$.author"” : "Jim"}}) 


定位 符 只 更 新 第 一 个 匹配 的 元 素 。 所 以 ， 如 果 John 发 表 了 多 条 评论 ， 那 么 他 的 名 字 
只 在 第 一 条 评论 中 改变 。 


8. 修改 器 速度 

有 的 修改 器 运行 比较 快 。$inc 能 就 地 修改 ， 因 为 不 需要 改变 文档 的 大 小 ， 只 需要 将 
键 的 值 修改 一 下 (对 文档 大 小 的 改变 非常 小 )， 所 以 非常 快 。 而 数组 修改 器 可 能 会 改 
变 文 档 的 大 小 ， 就 会 慢 一 些 ("$set" 能 在 文档 大 小 不 发 生变 化 时 立即 修改 它 ， 否 
则 性 能 也 会 有 所 下 降 )。 

将 文档 插入 到 MongoDB 中 时 ， 依 次 插入 的 文档 在 磁盘 上 的 位 置 是 相 邻 的 。 因 此 ， 
如 果 一 个 文档 变 大 了 ， 原 先 的 位 置 就 放 不 下 这 个 文档 了 ， 这 个 文档 就 会 被 移动 到 集 
合 中 的 另 一 个 位 置 。 

可 以 在 实际 操作 中 看 到 这 种 变化 。 创 建 一 个 包含 几 个 文档 的 集合 ， 对 某 个 位 于 中 间 
的 文档 进行 修改 ,使 其 尺寸 变 大 。 然 后 会 发 现 这 个 文档 被 移动 到 了 集合 的 尾部 : 

















> db.coll.insert({"x"” :"a"}) 
> db.coll.insert({"x"” :"b"}) 
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> db.coll.insert({"x" :"c"}) 
> db.coll.find() 


{ "_id" : ObjectId("507c3581d87d6a342elc81d3"), "x" :; "a" } 

{ "_id" : ObjectId("507c3583d87d6a342elc81d4"), "x" : "b" } 

{ "_id" : ObjectId("507c3585d87d6a342elc81d5"), "x" : "c" } 

> db.coll.update({"x" : "b"}, {$set: {"x" : "bbb"}}) 

> db.coll.find() 

{ "_id" : ObjectId("507c3581d87d6a342elc81d3"), "x" :; "a" } 

{ "_id" : ObjectId("507c3585d87d6a342elc81d5"), "x" :; "c" } 

{ "_id" : ObjectId("507c3583d87d6a342elc81d4"), "x" : "bbb" } 


MongoDB 不 得 不 移动 一 个 文档 时 ， 它 会 修改 集合 的 填充 因子 (padding factor)。 填 
充 因子 是 MongoDB 为 每 个 新 文档 预 留 的 增长 空间 。 可 以 运行 db.coll. stats() 
查看 填充 因子 。 执 行 上 面 的 更 新 之 前 ，"paddingFactor" 字段 的 值 是 1: 根据 实际 
的 文档 大 小 ， 为 每 个 新 文档 分 配 精确 的 空间 ， 不 预 留任 何 增长 空间 ， 如 图 3-1 所 示 。 
让 其 中 一 个 文档 增 大 之 后 ， 再 次 运行 这 个 命令 (如 图 3-2 所 示 )， 会 发 现 填 充 因子 增 
加 到 了 1.5: 为 每 个 新 文档 预 留 其 一 半 大 小 的 空间 作为 增长 空间 ， 如 图 3-2 所 示 。 如 
果 随 后 的 更 新 导致 了 更 多 次 的 文档 移动 ， 填 充 因子 会 持续 变 大 (虽然 不 会 像 第 一 次 
移动 时 的 变化 那么 大 )。 如 果 不 再 有 文档 移动 ， 填 充 因 子 的 值 会 缓慢 降低 ， 如 图 3-3 
所 示 。 





























本 


图 3-1: 最 初 文档 之 间 没 有 多 余 的 空间 

















图 3-2: 如 果 一 个 文档 因为 体积 变 大 而 不 得 不 进行 移动 ， 它 原先 占用 的 空间 就 闲置 了 ， 而 且 
填充 因子 会 增加 




















图 3-3: 之 后 插入 的 新 文档 都 会 拥有 填充 因子 指定 大 小 的 增长 空间 。 如 果 在 之 后 的 插入 中 不 
再 发 生 文档 移动 ， 填 充 因子 会 逐渐 变 小 


移动 文档 是 非常 慢 的 。MongoDB 必须 将 文档 原先 所 占 的 空间 释放 掉 ， 然 后 将 文档 
写 人 另 一 片 空间 。 因 此 ， 应 该 尽量 让 填充 因子 的 值 接近 1。 无 法 手动 设 定 填 充 因 子 
的 值 (除非 是 要 对 集合 进行 压缩 ， 参见 18.4 节 ) ， 但 是 可 以 设计 一 种 不 依赖 于 文档 、 
可 以 任意 增长 的 模式 。 第 8 章 会 详细 介绍 模式 设计 的 相关 内 容 。 
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下 面 用 一 个 简单 的 程序 来 展示 原 地 更 新 和 文档 移动 的 速度 差别 。 下 面 的 程序 插入 了 
一 个 只 包含 一 个 键 的 文档 ， 并 且 对 这 个 键 的 值 进行 了 100 000 次 增加 : 


> db.tester.insert({"x" : 1}) 
> Var timeInc function() { 
.Var start (new Date()).getTime(); 


. for (var i=0; i<100000; i++) { 
db.tester.update({}, {"s$inc"” : {"x" : 1}}); 
db.getLastError(); 

th 


. Var timeDiff = (new Date()).getTime() - start; 
. print("Updates took: "+timeDiff+"ms"); 
} 


> timeInc() 


在 MacBook Air 上 ， 总 共 花 费 了 7.33 秒 。 也 就 是 每 秒 超过 13 000 次 更 新 。 现 在 ， 
使 用 "$push" 向 一 个 只 有 一 个 键 的 数组 中 插入 新 数据 ， 重 复 100 000 次 。 将 上 面 例 
子 中 用 于 更 新 文档 的 代码 修改 为 : 


db.tester.update({}, {"s$push" : {"x"” : 1}}) 





这 个 程序 运行 时 间 为 67.58 秒 ， 每 秒 少 于 1500 次 更 新 。 


使 用 "$push" 以 及 其 他 一 些 数组 修改 器 是 非常 好 的 ， 而 且 通 常 是 必要 的 ， 但 是 ， 在 
进行 类 似 的 更 新 时 ， 需 要 好 好 权衡 一 下 。 如 果 "$push" 成 为 了 瓶颈 ， 那 么 将 一 个 内 
内 文档 取出 放 入 一 个 单独 的 集合 中 ， 手 动 填 充 ， 或 者 使 用 第 8 章 将 要 介绍 的 其 他 某 
项 技术 ， 都 很 值得 。 

写作 本 书 时 ，MongoDB 仍然 不 能 很 好 地 重用 空白 空间 ， 因 此 频繁 移动 文档 会 产生 
大 量 空 的 数据 文件 。 如 果 有 太 多 不 能 重用 的 空白 空间 ， 你 会 经 常 在 日 志 中 看 到 如 下 
信息 : 


Thu Apr 5 01:12:28 [conn124727] info DFM: :NndALL() : extent a:7f18dc00 was 
empty, skipping ahead 














这 就 是 说 ， 执 行 查询 时 ，MongoDB 会 在 整个 范围 (entire extent， 可 以 在 附录 B 中 
查看 相关 定义 。 简 单 来 说 ， 它 就 是 集合 的 一 个 子 集 ) 内 进行 查找 ， 却 找 不 到 任何 文 
档 : 这 只 是 个 空白 空间 。 这 个 消息 提示 本 身 没什么 影响 ,但 是 它 指出 你 当前 拥有 太 
多 的 碎片 ， 可 能 需要 进行 压缩 。 

如 果 你 的 模式 在 进行 插入 和 删除 时 会 进行 大 量 的 移动 或 者 是 经 常 打 乱 数 据 ， 可 以 使 
用 usePower0f2Sizes 选项 以 提高 磁盘 复 用 率 。 可 以 通过 coLLMod 命令 来 设 定 这 
个 选项 : 
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> db.runCommand({"collMod" : collectionName, "usePower0f2Sizes" : true}) 
这 个 集合 之 后 进行 的 所 有 空间 分 配 ， 得 到 的 块 大 小 都 是 2 的 突 。 由 于 这 个 选项 会 导 
致 初始 空间 分 配 不 再 那么 高 效 ， 所 以 应 该 只 在 需要 经 常 打 乱 数据 的 集合 上 使 用 。 在 
一 个 只 进行 插入 或 者 原 地 更 新 的 集合 上 使 用 这 个 选项 ， 会 导致 号 人 速度 变 慢 。 








如 果 在 这 个 命令 中 指定 "usePower0f2Sizes" 选项 的 值 为 false， 就 会 关闭 这 种 
特殊 分 配 机 制 。 这 个 选项 只 会 影响 之 后 新 分 配 的 记录 ， 因 此 ， 在 已 有 的 集合 上 运行 
这 个 命令 或 者 是 更 改 这 个 选项 的 值 ， 不 会 对 现 有 数据 产生 影响 。 





3.3.3 Upsert 

upsert 是 一 种 特殊 的 更 新 。 要 是 没有 找到 符合 更 新 条 件 的 文档 ， 就 会 以 这 个 条 
件 和 更 新 文档 为 基础 创建 一 个 新 的 文档 。 如 果 找 到 了 匹配 的 文档 ， 则 正常 更 新 。 
upsert 非常 方便 ,不必 预 置 集合 ， 同 一 大 ,代码 既 可 以 用 于 创建 文档 又 可 以 用 于 更 
新 文档 。 














我 们 回 过 头 看 看 那个 记录 网 站 页 面 访问 次 数 的 例子 。 要 是 没有 upsert， 就 得 试 着 
查询 URL， 没 有 找到 就 得 新 建 一 个 文档 ， 找 到 的 话 就 增加 访问 次 数 。 要 是 把 这 个 写 
成 JavaScript 程序 ， 会 是 下 面 这 样 的 : 








// 检查 这 个 页 面 是 否 有 一 个 文档 
blog = db.analytics.findOone({"url" : "/blog"}) 

















// 如 果 有 ， 就 将 视图 数 加 1 并 保存 

if (blog) { 
blog.pageviews++; 
db.analytics,.save(blog); 

} 

// 否则 为 这 个 页 面色 

eLse { 
db.analytics.save({"url" : "/blog", pageviews : 1}) 

} 


这 就 是 说 如 果 有 人 访问 页 面 ， 我 们 得 先 对 数据 库 进行 查询 ， 然 后 选择 更 新 或 者 插入 。 
要 是 多 个 进程 同时 运行 这 段 代 码 ， 还 会 遇 到 同时 对 给 定 URL 插入 多 个 文档 这 样 的 竞 
态 条 件 。 

















| 建 一 个 新 文档 

















要 是 使 用 upsert， 既 可 以 避免 竟 态 问题 ， 又 可 以 缩减 代码 量 (update 的 第 3 个 参 
数 表示 这 是 个 upsert) : 


db.analytics.update({"url" : "/blog"}, {"$inc" : {"pageviews" : 1}}, true) 


这 行 代码 和 之 前 的 代码 作用 完全 一 样 ， 但 它 更 高 效 ， 并 且 是 原子 性 的 ! 创建 新 文档 
会 将 条 件 文档 作为 基础 ， 然 后 对 它 应 用 修改 器 文档 。 
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例如 ， 要 是 执行 一 个 匹配 键 并 增加 对 应 键 值 的 upsert 操作 ， 会 在 匹配 的 文档 上 进 
行 增加 : 
> db.users.update({"rep" : 25}, {"$inc" : {"rep" : 3}}, true) 


> db.users.findone() 


" id" :0bjectId("4b3295f26cc613d5ee93018f" ) ， 
"rep”: 28 
} 
upsert 创建 一 个 "rep" 值 为 25 的 文档 ， 随 后 将 这 个 值 加 3， 最 后 得 到 "rep" 为 
28 的 文档 。 要 是 不 指定 upsert 选项 ，{" rep" : 25} 不 会 匹配 任何 文档 ， 也 就 不 
会 对 集合 进行 任何 更 新 。 


要 是 再 次 运行 这 个 upsert (条 件 为 {"rep"” : 25})， 还 会 创建 一 个 新 文档 。 这 是 
因为 没有 文档 满足 匹配 条 件 (唯一 一 个 文档 的 "rep" 值 是 28)。 
有 时 ， 需要 在 创建 文档 的 同时 创建 字段 并 为 它 赋值 ， 但 是 在 之 后 的 所 有 更 新 操作 中 ， 


这 个 字段 的 值 都 不 再 改变 。 这 就 是 "$set0nInsert" 的 作用 。"$setOnInsert" 只 
会 在 文档 插入 时 设置 字段 的 值 。 因 此 ， 实 际 使 用 中 可 以 这 么 做 : 




















> db.users.update({}, {"$setOnInsert" : {"createdAt" : new Date()}}, true) 
> db.users.findone() 
{ 

" id" : ObjectId("512b8aefae74c67969e404ca")， 

"createdAt" : ISODate("2013-02-25T16:01:50.7422") 


如 果 再 次 运行 这 个 更 新 ， 会 匹配 到 这 个 已 存在 的 文档 ， 所 以 不 会 再 插入 文档 ， 因 此 
"createdAt" 字段 的 值 也 不 会 改变 : 








> db.users.update({}, {"$setOnInsert" : {"createdAt" : new Date()}}, true) 
> db.users.findone() 
{ 
"_ id" : ObjectId("512b8aefae74c67969e404ca")， 
"createdAt" : ISODate("2013-02-25T16:01:50.7422") 
} 


注意 ， 通 常 不 需要 保留 "createdAt" 这 样 的 字段 ， 因 为 0bjectIds 里 包含 了 一 个 
用 于 标明 文档 创建 时 间 的 时 间 惟 。 但 是 ， 在 预 置 或 者 初始 化 计数 器 时 ， 或 者 是 对 于 
不 使 用 0bjectIds 的 集合 来 说 ，"$setonInsert'" 是 非常 有 用 的 。 





save shell 帮 助 程序 
save 是 一 个 shell 函数 ， 如 果 文 档 不 存在 ， 它 会 自动 创建 文档 ;如果 文档 存在 ， 它 
就 更 新 这 个 文档 。 它 只 有 一 个 参数 : 文档 。 要 是 这 个 文档 含有 " id" 键 ，save 会 









































调用 upsert。 否 则 ,会 调用 insert。 如 果 在 Shell 中 使 用 这 个 函数 ， 就 可 以 非常 
方便 地 对 文档 进行 快速 修改 。 

> var x = db.foo.findOne() 

> x.num = 42 


42 
> db.foo.save(x) 


要 是 不 用 save 的话 ， 最 后 一 行 代码 看 起 来 就 会 比较 繁琐 了 ， 比 如 db.foo.up 
date({" id" : x. id}, x)。 


3.3.4 更 新 多 个 文档 

默认 情况 下 ， 更 新 只 能 对 符合 匹配 条 件 的 第 一 个 文档 执行 操作 。 要 是 有 多 个 文档 符 
合 条 件 ， 只 有 第 一 个 文档 会 被 更 新 ， 其 他 文档 不 会 发 生变 化 。 要 更 新 所 有 匹配 的 文 
档 ， 可 以 将 update 的 第 4 个 参数 设置 为 true。 


update 的 行为 以 后 可 能 会 发 生变 化 (服务 器 可 能 默认 会 更 新 所 有 匹配 的 文 
心 。 档 ， 只 有 第 4 个 参数 为 false 才 会 只 更 新 一 个 )， 所 以 建议 每 次 都 显 式 表 
心 ' 明 要 不 要 做 多 文档 更 新 。 

















这 样 不 但 更 明确 地 指定 了 update 的 行为 ， 而 且 可 以 在 默认 行为 发 生变 化 
时 正常 运行 。 





多 文档 更 新 对 模式 迁移 非常 有 用 ， 还 可 以 在 对 特定 用 户 发 布 新 功能 时 使 用 。 例 如 ， 
要 送 给 在 某 个 指定 日 期 过 生日 的 所 有 用 户 一 份 礼 物 ， 就 可 以 使 用 多 文档 更 新 ， 将 
"gift" 增加 到 他 们 的 账号 : 








> db.users.update({"birthday" : "10/13/1978"}, 
. {"$set" : {"gift" : "Happy Birthday!"}}, false, true) 


这 样 就 给 生日 为 1978 年 10 月 13 日 的 所 有 用 户 文 档 添加 了 "gift" 键 。 


想 要 知道 多 文档 更 新 到 底 更 新 了 多 少 文档 ， 可 以 运行 getLastError 命令 (可 以 理 
解 为 “返回 最 后 一 次 操作 的 相关 信息 ”)。 键 "n" 的 值 就 是 被 更 新 文档 的 数量 。 


> db.count.update({"x" : 1}, {"s$inc" : {"x" : 1}}, false, true) 
> db.runCommand({getLastError : 1}) 


{ 
"err"” : null, 
"updatedExisting" : true, 
Hm Dy 
"ok" : true 

} 
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这 里 "n" 为 5， 说 明 有 5 个 文档 被 更 新 了 。 "updatedExisting" 为 true， 说 明 是 
对 已 有 的 文档 进行 更 新 。 


3.3.5 返回 被 更 新 的 文档 

调用 getLastError 仅 能 获得 关于 更 新 的 有 限 信息 ， 并 不 能 返回 被 更 新 的 文档 。 可 
以 通过 findAndModify 命令 得 到 被 更 新 的 文档 。 这 对 于 操作 队列 以 及 执行 其 他 需 
要 进行 原子 性 取 值 和 赋值 的 操作 来 说 ， 十 分 方便 。 


假设 我 们 有 一 个 集合 ， 其 中 包含 以 一 定 顺序 运行 的 进程 。 其 中 每 个 进程 都 用 如 下 形 
式 的 文档 表示 : 























{ 
"_id" : ObjectId(), 
"status" : state, 
"priority" : N 

} 


"status" 是 一 个 字符 串 ， 它 的 值 可 以 是 "READY"、"RUNNING" 或 "DONE"。 需 要 
找到 状态 为 "READY" 具有 最 高 优先 级 的 任务 ， 运 行 相 应 的 进程 函数 ， 然 后 将 其 状态 
ee "DONE"。 也 可 能 需要 查询 已 经 就 绪 的 进程 ， 按 照 优先 级 排序 ， 然 后 将 优先 

高 的 进程 的 状态 更 新 为 "RUNNING"。 完 成 了 以 后 ， 就 把 状态 改 为 "DONE"。 就 
Hee 





var cursor = db.processes.find({"status" : "READY"}); 

ps = cursor.sort({"priority" : -1}).limit(1).next(); 
db.processes.update({" id" : ps. id}, {"$set" : {"status" : "RUNNING"}}); 
do_ something(ps); 

db.processes.update({" id" : ps. id}, {"$set" : {"status" : "DONE"}}); 


这 个 算法 不 是 很 好 ， 可 能 会 导致 竞 态 条 件 。 假 设 有 两 个 线程 正在 运行 。A 线程 读 取 
了 文档 ，B 线程 在 A 将 文档 状态 改 为 "RUNNING " 人 这 样 
两 个 线程 会 运行 相同 的 处 理 过 程 。 虽 然 可 以 在 更 新 查询 中 进行 状态 检查 来 避免 这 一 
问题 ， 但 是 十 分 复杂 : 








var cursor = db.processes.find({"status" : "READY"}); 
cursor.sort({"priority" : -1}).limit(1); 
while ((ps = cursor.next()) != null) { 
ps.update({" id" : ps. id, "status" :; "READY"}, 
{"$set" : {"status" : "RUNNING"}}); 


var Lasto0p = db.runCommand({getlasterror : 1}); 

if (Lastop.n == 1) { 
do something(ps); 
db.processes.update({" id" : ps. id}, {"$set" : {"status" : "DONE"}}) 
break; 





cursor = db.processes.find({"status" : "READY"}); 
cursor.sort({"priority" : -1}).limit(1); 
} 


这 样 也 有 问题 。 因 为 有 先 有 后 ， 很 可 能 一 个 线程 处 理 了 所 有 任务 ， 而 另外 一 个 就 傻 
傻 地 呆 在 那里 。A 线程 可 能 会 一 直 占 用 着 进程 ，B 线程 试 着 抢占 失败 后 ， 就 让 A 线 
程 自 己 处 理 所 有 任务 了 。 


遇 到 类 似 这 样 的 情况 时 ，findAndModify ee findAndModify 能 够 
在 一 个 操作 中 返回 匹配 结果 并 且 进 行 更 新 。 在 本 例 中 ， 处 理 过 程 如 下 所 示 : 





> ps = db.runCommand({"findAndModify" : "processes", 
.. "query" : {"status" :; "READY"}, 
... "Sort" : {"priority" : -1}, 
... "Update" : {"$set" : {"status" : "RUNNING"}}) 
{ 
"OK™ 1s 
"value"” : { 


"_id" : ObjectId("4b3e7al8005cab32be6291f7")， 
"priority" : 1, 
"status" : "READY" 


} 





注意 ， 返 回 文档 中 的 状态 仍 名 0 因为 findAndModify 返回 的 是 修改 之 
前 的 文档 。 要 是 再 在 集合 上 进行 一 次 查询 ， 会 发 现 这 个 文档 的 "status" 已 经 更 新 
成 了 "RUNNING": 


> db.processes.findOne({" id" : ps.value. id}) 

{ 
"_id" : 0bjectId("4b3e7a18005cab32be6291f7" ) ， 
"priority" : 1, 
"status" : "RUNNING" 

} 


这 样 的 话 ， 程 序 就 变 成 了 下 面 这 样 : 


ps = db.runCommand({"findAndModify" : "processes", 
"query" : {"status" : "READY"}, 
"SOrt® 2 {briorLty™ sl} 
"update" : {"$set" : {"status"” : "RUNNING"}}}).value 
do something(ps) 
db.process.update({" id" : ps. id}, {"$set" : {"status" :; "DONE"}}) 


findAndModify 可 以 使 用 "update" 键 也 可 以 使 用 "remove" 键 。"remove" 键 表 
示 将 匹配 的 文档 从 集合 里 面 删除 。 例 如 ， 现 在 不 用 更 新 状态 了 ， 而 是 直接 删 掉 ， 就 
可 以 像 下 面 这 样 : 
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ps = db.runCommand({"findAndModify" : "processes", 


"query" : {"status" : "READY"}, 
"sort" : {"priority" : -1}, 
"remove" : true}).value 


do_ something(ps) 
findAndModify 命令 有 很 多 可 以 使 用 的 字段 。 


。 findAndModify 
字符 串 ， 集 合 名 。 


。 query 


查询 文档 ， 用 于 检索 文档 的 条 件 。 


。 sort 


排序 结果 的 条 件 。 




















。 Update 
修改 器 文档 ， 用 于 对 匹配 的 文档 进行 更 新 (update 和 remove 必须 指定 一 个 )。 





。 remove 
布尔 类 型 ， 表示 是 否 删除 文档 (remove 和 update 必须 指定 一 个 )。 


。 New 


布尔 类 型 ,表示 返回 更 新 前 的 文档 还 是 更 新 后 的 文档 。 默 认 是 更 新 前 的 文档 。 








。 fields 
文档 中 需要 返回 的 字段 (可 选 )。 





。 Upsert 
布尔 类 型 ， 值 为 true 时 表示 这 是 一 个 upsert。 默 认为 false。 


"update" 和 "remove" 必须 有 一 个 ， 也 只 能 有 一 个 。 要 是 没有 匹配 的 文档 ， 这 个 
命令 会 返回 一 个 错误 。 


3.4 写 入 安全 机 制 


写 入 安全 (Write Concern) 是 一 种 客户 端 设置 ， 用 于 控制 写 入 的 安全 级 别 。 默 认 情 
况 下 ， 插 入、 删除 和 更 新 都 会 一 直 等 待 数据 库 响 应 ( 写 入 是 否 成 功 )， 然 后 才 会 继续 
执行 。 通 常 ， 遇 到 错误 时 ， 客 户 端 会 抛 出 一 个 异常 (有 些 语言 中 可 能 不 叫 “ 异 常 ”， 
不 过 实质 上 都 是 类 似 的 东西 ) 。 














有 一 些 选 项 可 以 用 于 精确 控制 需要 应 用 程序 等 待 的 内 容 。 两 种 最 基本 的 写 人 安全 机 
制 是 应 答 式 写 入 (acknowledged wirte) 和 非 应 答 式 写 入 (unacknowledged write ) 。 
应 答 式 写 人 是 默认 的 方式 : 数据库 会 给 出 响应 ， 告 诉 你 写 入 操作 是 否 成 功 执行 。 非 
应 答 式 写 入 不 返回 任何 响应 ， 所 以 无 法 知道 写 入 是 否 成 功 。 


通常 来 说 ， 应 用 程序 应 该 使 用 应 答 式 写 入 。 但 是 ， 对 于 一 些 不 是 特别 重要 的 数据 
(比如 日 志 或 者 是 批量 加 载 数据 ) ， 你 可 能 不 愿意 为 了 自己 不 关心 的 数据 而 等 待 数据 
库 响 应 。 在 这 种 情况 下 ， 可 以 使 用 非 应 答 式 号 人 


尽管 非 应 答 式 写 入 不 返回 数据 库 错 误 ， 但 是 这 不 代表 应 用 程序 不 需要 做 错误 检查 。 
如 果 尝 试 向 已 经 关闭 的 套 接 字 (socket) 执行 写 人 ， 或 者 写 入 套 接 字 时 发 生 了 错误 ， 
都 会 引起 异常 。 


使 用 非 应 答 式 写 和 时， 一 种 经 常 被 忽视 的 错误 是 插入 无 效 数 据 。 比 如 ， 如 果 试 图 插 
入 两 个 具有 相同 " id" 字段 的 文档 ，shell 就 会 抛 出 异常 : 
> db.foo.insert({" id" : 1}) 


> db.foo.insert({" id" : 1}) 
E11000 duplicate key error index: test,.foo.$ id dup key: { : 1.0 } 


rt et 那么 第 二 次 插入 就 不 会 抛 出 异常 。 键 重 
复 异 常 是 一 种 非常 常见 的 错误 ， 还 有 其 他 很 多 类 似 的 错误 ， 比 如 无 效 的 修改 器 或 者 
是 磁盘 空 ee 


shell 与 客户 端 程序 对 非 应 答 式 写 入 的 实际 支持 并 不 一 样 : shell 在 执行 韭 应 答 式 写 入 
后 ,会 检查 最 后 一 个 操作 是 否 成 功 ， 然 后 才 会 向 用 户 输 出 提示 信息 。 因 此 ， 如 果 在 
集合 上 执行 了 一 系列 无 效 操作 ， 最 后 又 执行 了 一 个 有 效 操作 ，shell 并 不 会 提示 有 错 
误 发 生 。 

> db.foo.insert({" id" : 1}); db.foo.insert({" id" : 1}); db.foo.count() 

1 























可 以 调用 getLastError 手动 强制 在 shell 中 进行 检查 ， 这 一 操作 会 检查 最 后 一 次 
操作 中 的 错误 。 


> db.foo.insert({" id" : 1}); db.foo.insert({" id" : 1}); print( 

. db.getLastError()); db.foo.count() 
E11000 duplicate key error index: test,.foo.$ id dup key: { : 1.0 } 
1 


编写 需要 在 shell 中 执行 的 脚本 时 ， 这 是 非常 有 用 的 。 


事实 上 ， 还 有 其 他 一 些 写 和 安全 机 制 ， 第 11 章 会 讲述 多 台 服 务 器 之 间 的 写 入 安全 ， 
第 19 章 会 讲述 写 和 提交。 
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Ce 


2012 年 ， 默 认 的 写 入 安全 机 制 改 变 了 ， 所 以 ， 遗 留 代码 的 行为 可 能 会 与 预 
期 不 一 致 。 在 此 之 前 ， 默 认 的 写 和 人 是非 应 答 式 的 。 














幸好 ， 很 容易 得 知 当前 代码 是 在 默认 的 写 入 安全 机 制 发 生变 化 之 前 写 的 
还 是 之 后 写 的 : 默认 的 写 和 机制 变 为 安全 写 和 人 之后， 所 有 驱动 程序 都 
开始 使 用 MongoClient 这 个 类 。 如 果 程 序 使 用 的 连接 对 象 是 Mongo 或 
者 Connection 或 者 其 他 内 容 ， 那 么 这 段 程序 使 用 的 就 是 旧 的 、 默 认 不 
安全 的 API。 在 默认 写 和 安全 机 制 发 生变 化 之 前 ， 任 何 语言 都 没有 使 用 
MongoClient 作为 类 名 ， 所 以 ， 如 果 你 的 代码 使 用 了 这 个 类 名 ， 说 明 你 的 
代码 是 写 入 安全 的 。 





























如 果 使 用 的 连接 不 是 MongoCLient， 应 在 必要 时 将 旧 代 码 中 的 非 应 答 式 写 
入 改 成 应 答 式 写 人 。 








第 4 章 


查询 





本 章 将 详细 介绍 查询 。 主 要 会 涵盖 以 下 几 个 方面 : 


。 使 用 find 或 者 find0ne 函数 和 查询 文档 对 数据 库 执行 查询 ，; 

。 使 用 $ 条 件 查 询 实现 范围 查询 、 数 据 集 包含 查询 .不等式 查 询 , 以 及 其 他 一 些 查询 ; 

。 查询 将 会 返回 一 个 数据 库 游标 ， 游 标 只 会 在 你 需要 时 才 将 需要 的 文档 批量 返回 ，; 

。 还 有 很 多 针对 游标 执行 的 元 操作 ， 包 括 忽略 一 定数 量 的 结果 ， 或 者 限定 返回 结果 
的 数量 ， 以 及 对 结果 排序 。 





4.1 _ find 简介 

MongoDB 中 使 用 find 来 进行 查询 。 查 询 就 是 返回 一 个 集合 中 文档 的 子 集 ， 子 集 的 
范围 从 0 个 文档 到 整个 集合 。find 的 第 一 个 参数 决定 了 要 返回 哪些 文档 ， 这 个 参数 
是 一 个 文档 ， 用 于 指定 查询 条 件 。 

空 的 查询 文档 (例如 {}) 会 匹配 集合 的 全 部 内 容 。 要 是 不 指定 查询 文档 ， 上 默认 就 是 
{}。 例 如 : 




















> db.c.find() 
将 批量 返回 集合 c 中 的 所 有 文档 。 


开始 向 查询 文档 中 添加 键 / 值 对 时 ， 就 意味 着 限定 了 查询 条 件 。 对 于 绝 大 多 数 类 型 
来 说 ， 这 种 方式 很 简单 明了 。 数 值 匹配 数值 ， 布 尔 类 型 匹配 布尔 类 型 ， 字 符 串 匹 配 
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字符 串 。 查 询 简单 的 类 型 ， 只 要 指定 想 要 查找 的 值 就 好 了 ， 十 分 简单 。 例 如 ， 想 要 
查找 "age" 值 为 27 的 所 有 文档 ， 直 接 将 这 样 的 键 / 值 对 写 进 查询 文档 就 好 了 : 





> db.users.find({"age" : 27}) 


要 是 想 匹 配 一 个 字符 串 ， 比 如 值 为 "joe" 的 "username" 键 ， 那么 直接 将 键 / 值 对 
写 在 查询 文档 中 即 可 : 





> db.users.find({"username" : "joe"}) 
可 以 向 查询 文档 加 入 多 个 键 / 值 对 ， 将 多 个 查询 条 件 组 合 在 一 起 ， 这 样 的 查询 条 件 
会 被 解释 成 “条 件 1 AND 条 件 2 AND ... AND 条 件 N"”。 例 如 ， 要 想 查询 所 有 用 户 
名 为 joe 且 年 龄 为 27 岁 的 用 户 ， 可 以 像 下 面 这 样 : 








> db.users.find({"username" : "joe", "age" : 27}) 


4.1.1 指定 需要 返回 的 键 

有 时 并 不 需要 将 文档 中 所 有 键 / 值 对 都 返回 。 遇 到 这 种 情况 ， 可 以 通过 find ( 
findone) 的 第 二 个 参数 来 指定 想 要 的 键 。 这 样 做 既 会 节省 传输 的 数据 量 ， 又 能 
省 客户 端 解码 文档 的 时 间 和 内 存 消 耗 。 

例如 ， 如 果 只 对 用 户 集合 的 "username" 和 "email" 键 感 兴趣 ， 可 以 使 用 如 下 查询 
返回 这 些 键 : 











> db.users.find({}, {"username" : 1, "email" : 1}) 
{ 
" id" : ObjectId("4bagf0dfd22aa494fd523620" ) ， 
"username" : "joe", 
"email" : "joe@example.com" 


} 
可 以 看 到 ， 上 默认 情况 下 "_id" 这 个 键 总 是 被 返回 ， 即 便 是 没有 指定 要 返回 这 个 键 。 


也 可 以 用 第 二 个 参数 来 剔除 查询 结果 中 的 某 些 键 / 值 对 。 例 如 ， 文 档 中 有 很 多 键 ， 
但 是 我 们 不 希望 结果 中 含有 "fatal_weakness" 键 : 




















> db.users.find({}, {"id" : 0}) 
使 用 这 种 方式 ， 也 可 以 把 "id" 键 别 除 拒 : 
> db.users.find({}, {"username" : 1, " id" : 0}) 


{ 


"username" : "joe", 





4.1.2 限制 

查询 使 用 上 有 些 限制 。 传 递 给 数据 库 的 查询 文档 的 值 必须 是 常量 。( 在 你 自己 的 代码 
里 可 以 是 正常 的 变量 。) 也 就 是 不 能 引用 文档 中 其 他 键 的 值 。 例 如 ， 要 想 保持 库存 ， 
有 "in stock" (剩余 库存 ) 和 "num soLd" (已 出 售 ) 两 个 键 ， 想 通过 下 列 查 询 
来 比较 两 者 的 值 是 行 不 通 的 : 


> db.stock.find({"in stock"” : "this.num sold"}) // 这 样 是 行 不 通 的 


的 确 有 办 法 实现 类 似 的 操作 〈 详 见 4.4 节 )， 但 通常 需要 略微 修改 一 下 文档 结构 ， 就 
能 通过 普通 查询 来 完成 这 样 的 操作 了 ， 这 种 方式 性 能 更 好 。 在 这 个 例子 中 ， 可 以 在 
文档 中 使 用 "initiaL_stock" (初始 库存 ) 和 "in_stock" 两 个 键 。 这 样 ， 每 当 
有 人 购买 物品 ， 就 将 "in_stock" 减 去 1。 这 样 ， 只 需要 用 一 个 简单 的 查询 就 能 知 
道 哪 种 商品 已 脱销 : 















































> db.stock.find({"in stock" : 0}) 


4.2 ”查询 条 件 


查询 不 仅 能 像 前 面 说 的 那样 精确 匹配 ， 还 能 匹配 更 加 复杂 的 条 件 ， 比 如 范围 、OR 
子 句 和 取 反 。 





4.2.1 查询 条 件 
"$lt"、"$lte"、"$gt" 和 "$gte" 就 是 全 部 的 比较 操作 符 ， 分 别 对 应 <、<=、> 
和 >=。 可 以 将 其 组 合 起 来 以 便 查找 一 个 范围 的 值 。 例 如 ， 查 询 18~30 岁 ( 含 ) 的 用 
户 ， 就 可 以 像 下 面 这 样 : 

> db.users.find({"age" : {"$gte" : 18, "$lte" : 30}}) 
这 样 就 可 以 查找 到 "age" 字段 大 于 等 于 18、 小 于 等 于 30 的 所 有 文档 。 
这 样 的 范围 查询 对 日 期 尤为 有 用 。 例 如 ， 要 查找 在 2007 年 1 月 1 日 前 注册 的 人 ， 可 
以 像 下 面 这 样 : 


> start = new Date("01/01/2007") 
> db.users.find({"registered" : {"$lt" : start}}) 


可 以 对 日 期 进行 精确 匹配 ， 但 是 用 处 不 大 ， 因 为 文档 中 的 日 期 是 精确 到 毫秒 的 。 而 
我 们 通常 是 想得到 一 天 、 一 周 或 者 是 一 个 月 的 数据 ， 这 样 的 话 ， 使 用 范围 查询 就 很 
有 必要 了 。 





























对 于 文档 的 键 值 不 等 于 某 个 特定 值 的 情况 ， 就 要 使 用 另外 一 种 条 件 操 作 符 "$ne" 
了 ， 它 表示 “不 相等 " 。 若 是 想 要 查询 所 有 名 字 不 为 joe 的 用 户 ， 可 以 像 下 面 这 样 查询 : 





> db.users.find({"username" : {"$ne" : "joe"}}) 


"$ne" 能 用 于 所 有 类 型 的 数据 。 


4.2.2 ”OR 查询 
MongoDB 中 有 两 种 方式 进行 OR 查询 : "$in" 可 以 用 来 查询 一 个 键 的 多 个 值 ， 
"$or" 更 通用 一 些 ， 可 以 在 多 个 键 中 查询 任意 的 给 定 值 。 


如 果 一 个 键 需 要 与 多 个 值 进行 匹配 的 话 ， 就 要 用 "$in" 操作 符 ， 再 加 一 个 条 件数 
组 。 例 如 ， 抽 奖 活 动 的 中 奖 号 码 是 725、542 和 390。 要 找 出 全 部 的 中 奖 文档 的 话 ， 
可 以 构建 如 下 查询 : 


> db.raffle.find({"ticket no" : {"$in" : [725, 542, 390]}}) 





"$in" 非常 灵活 ， 可 以 指定 不 同类 型 的 条 件 和 值 。 例 如 ， 在 逐步 将 用 户 的 ID 号 迁 
移 成 用 户 名 的 过 程 中 ， 查 询 时 需要 同时 匹配 ID 和 用 户 名 : 


> db.users.find({"user id" : {"$in" :; [12345, "joe"]}) 





这 会 匹配 "user_id" 等 于 12345 的 文档 ， 也 会 匹配 "user_id" 等 于 "joe" 的 文档 。 


要 是 "$in" 对 应 的 数组 只 有 一 个 值 ， 那 么 和 直接 匹配 这 个 值 效果 一 样 。 例 如 ， 
{ticket no : {$in:[725]}} 和 {ticket_no : 725} 的 效果 一 样 。 























与 "$in" 相对 的 是 "$nin",， "$nin" 将 返回 与 数组 中 所 有 条 件 都 不 匹配 的 文档 。 要 
是 想 返 回 所 有 没有 中 奖 的 人 ， 就 可 以 用 如 下 方法 进行 查询 : 


> db.raffle.find({"ticket no" : {"$nin" :; [725, 542, 390]}}) 
该 查询 会 返回 所 有 没有 中 奖 的 人 。 


"$in" 能 对 单个 键 做 OR 查询 ， 但 要 是 想 找 到 "ticket _no" 为 725 或 者 "winner" 
为 true 的 文档 该 怎么 办 呢 ? 对 于 这 种 情况 ， 应 该 使 用 "$or"。"$or'" 接受 一 个 包 
含 所 有 可 能 条 件 的 数组 作为 参数 。 上 面 中 奖 的 例子 如 果 用 "$or" 改写 将 是 下 面 这 个 
样子 : 


> db.raffle.find({"$or" : [{"ticket no" : 725}, {"winner" :; true}]}) 




















"$or" 可 以 包含 其 他 和 条件。 例如， 如 果 和 希望 匹配 到 中 奖 的 "ticket no", 或 者 
"winner" 键 的 值 为 true 的 文档 ， 就 可 以 这 么 做 : 
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> db.raffle.find({"$or" : [{"ticket no" : {"$in"” : [725, 542, 390]}}, 
{"winner" : true}]}) 


使 用 普通 的 AND 型 查询 时 ， 总 是 希望 尽 可 能 用 最 少 的 条 件 来 限定 结果 的 范围 。OR 
型 查询 正 相 反 : 第 一 个 条 件 应 该 尽 可 能 匹配 更 多 的 文档 ， 这 样 才 是 最 为 高 效 的 。 
"$or" 在 任何 情况 下 都 会 正常 工作 。 如 果 查 询 优化 器 可 以 更 高 效 地 处 理 "$in"， 那 
就 选择 使 用 它 。 









































4.2.3 $not 


"$not" 是 元 条 件 句 ， 即 可 以 用 在 任何 其 他 条 件 之 上 。 就 拿 取 模 运 算 符 "$mod" 来 说 。 
"$mod" 会 将 查询 的 值 除 以 第 一 个 给 定 值 ， 若 余数 等 于 第 二 个 给 定 值 则 匹配 成 功 : 














> db.users.find({"id num" : {"$mod" : [5, 1]}}) 
上 面 的 查询 会 返回 "id_num'" 值 为 1、6、11、16 等 的 用 户 。 但 要 是 想 返 回 "id_ 
num" 为 2、3、4、5、7、8、9、10、12 等 的 用 户 ， 就 要 用 "$not" 了 : 

> db.users.find({"id num" : {"$not" :; {"$mod" : [5, 1]}}}) 


"$not" 与 正则 表达 式 联合 使 用 时 极为 有 用 ， 用 来 查找 那些 与 特定 模式 不 匹配 的 文 
档 (4.3.2 节 会 详细 讲述 正则 表达 式 的 使 用 )。 


4.2.4 条 件 语义 
如 果 比 较 一 下 上 一 章 的 更 新 修改 器 和 前 面 的 查询 文档 ， 会 发 现 以 $ 开头 的 键 位 于 在 
不 同 的 位 置 。 在 查询 中 ，"$Lt" 在 内 层 文档 ， 而 更 新 中 "$inc" 则 是 外 层 文档 的 键 。 
基本 可 以 肯定 : 条 件 语 句 是 内 层 文档 的 键 ， 而 修改 器 则 是 外 层 文档 的 键 。 
可 以 对 一 个 键 应 用 多 个 条 件 。 例 如 ， 要 查找 年 龄 为 20~30 的 所 有 用 户 ， 可 以 在 
"age" 键 上 使 用 "$gt" 和 "$lt": 

> db.users.find({"age" : {"$lt" : 30, "$gt" : 20}}) 
一 个 键 可 以 有 任意 多 个 条 件 ， 但 是 一 个 键 不 能 对 应 多 个 更 新 修改 器 。 例 如 ， 修 改 器 
文档 不 能 同时 含有 {"$inc"” : {"age"” : 1}, "$set"” :; {age : 40}}， 因 为 修 
改 了 "age" 两 次 。 但 是 对 于 查询 条 件 句 就 没有 这 种 限定 。 
有 一 些 “ 元 操作 符 ”(meta-operator) 也 位 于 外 层 文 档 中 ， 比 如 "$and"、"$or" 和 
"$nor"。 它 们 的 使 用 形式 类 似 : 


> db.users.find({"$and" : [{"x"™ : {"$lt" : 1}}, {"x" : 4}]}) 




















这 个 查询 会 匹配 那些 "x" 字段 的 值 小 于 1 并 且 等 于 4 的 文档 。 虽 然 这 两 个 条 件 看 起 
来 是 矛盾 的 ， 但 是 这 是 完全 有 可 能 的 ， 比 如 ， 如 果 "x" 字段 的 值 是 这 样 一 个 数组 
{"x” : [9，4]}， 那 么 这 个 文档 就 与 查询 条 件 相 匹配 。 注 意 ， 查 询 优 化 器 不 会 对 
"$and" 进行 优化 ， 这 与 其 他 操作 符 不 同 。 如 果 把 上 面 的 查询 改 成 下 面 这 样 ， 效 率 


会 更 高 : 


> db.users.find({"x" : {"$lt" : 1, "$in" : [4]}}) 
4.3 ”特定 类 型 的 查询 


如 第 2 章 所 述 ，MongoDB 的 文档 可 以 使 用 多 种 类 型 的 数据 。 其 中 有 一 些 在 查询 时 
会 有 特别 的 表现 。 




















4.3.1 null 
null 类 型 的 行为 有 点 奇怪 。 它 确实 能 匹配 自身 ， 所 以 要 是 有 一 个 包含 如 下 文档 的 
集合 : 

> db.c.find() 

{ 人 ”id"” :0bjectId("4ba0f0dfd22aa494fd523621")，"y"”: null } 

{ ”id"” :0bjectId("4ba0f0dfd22aa494fd523622")，"y" : 1} 

{ "id" : ObjectId("4badf148d22aa494fd523623"), "y" :21} 


就 可 以 按照 预期 的 方式 查询 "y" 键 为 null 的 文档 : 


> db.c.find({"y" : null}) 
{ "_id" : ObjectId("4badfOdfd22aa494fd523621"), "y" : null } 


但 是 ，null 不 仅 会 匹配 某 个 键 的 值 为 null 的 文档 ， 而 且 还 会 匹配 不 包含 这 个 键 的 
文档 。 所 以 ， 这 种 匹配 还 会 返回 缺少 这 个 键 的 所 有 文档 : 








> db.c.find({"z" : null}) 

{ "id" : 0bjectId("4bagfgdfd22aa494fd523621")，"y" : null } 

{ " id" : 0bjectId("4bagfgdfd22aa494fd523622")，"y"” : 1} 

{ " id" : 0bjectId("4bagf148d22aa494fd523623")，"y" : 2 } 
如 果 仅 想 匹 配 键 值 为 null 的 文档 ， 既 要 检查 该 键 的 值 是 否 为 null， 还 要 通过 
"$exists" 条 件 判定 键 值 已 存在 : 


> db.c.find({"z" : {"$in"” : [null], "$exists" : true}}) 


很 遗憾 ， 没 有 "$eq" 操作 符 ， 所 以 这 条 查询 语句 看 上 去 有 些 令 人 费解 ， 但 是 使 用 只 
有 一 个 元 素 的 "$in" 操作 符 效果 是 一 样 的 。 

















4.3.2 ”正则 表达 式 


正则 表达 式 能 够 灵活 有 效 地 匹配 字符 串 。 例 如 ， 想 要 查找 所 有 名 为 Joe 或 者 joe 的 
用 户 ， 就 可 以 使 用 正则 表达 式 执行 不 区 分 大 小 写 的 匹配 : 





> db.users.find({"name" : /joe/i}) 


系统 可 以 接受 正则 表达 式 标 志 (i)， 但 不 是 一 定 要 有 。 现 在 已 经 匹配 了 各 种 大 小 写 
组 合 形式 的 joe， 如 果 还 希望 匹配 如 "joey" 这 样 的 键 ， 可 以 略微 修改 一 下 刚刚 的 正 
则 表达 式 : 


> db.users.find({"name" : /joey?/i}) 


MongoDB 使 用 Perl 兼容 的 正则 表达 式 (PCRE) 库 来 匹配 正则 表达 式 ， 任 何 PCRE 
支持 的 正则 表达 式 语法 都 能 被 MongoDB 接受 。 建 议 在 查询 中 使 用 正则 表达 式 前 ， 
先 在 JavaScript shell 中 检查 一 下 语法 ， 确 保 匹配 与 设想 的 一 致 。 











过 





ss、 MongoDB 可 以 为 前 级 型 正则 表达 式 (比如 /^joey/) 查询 创建 索引 ， 所 
心 4 、。 以 这 种 类 型 的 查询 会 非常 高 效 。 


, 
0, 








正则 表达 式 也 可 以 匹配 自身 。 虽 然 几 乎 没有 人 直接 将 正则 表达 式 插入 到 数据 库 中 ， 
但 要 是 万 一 你 这 么 做 了 ， 也 可 以 匹配 到 自身 : 


> db.foo.insert({"bar" : /baz/}) 
> db.foo.find({"bar" : /baz/}) 
{ 


"_id" : ObjectId("4b23c3ca7525f35f94b60a2d")， 
"bar" : /baz/ 


4.3.3 查询 数组 
查询 数组 元 素 与 查询 标量 值 是 一 样 的 。 例 如 ， 有 一 个 水 果 列 表 ， 如 下 所 示 : 

















> db.food.insert({"fruit" : ["apple", "banana", "peach"]}) 
下 面 的 查询 : 
> db.food.find({"fruit" : "banana"}) 


会 成 功 匹 配 该 文档 。 这 个 查询 好 比 我 们 对 一 个 这 样 的 (不合 法) 文档 进行 查询 : 
{"fruit" : "apple", "fruit" : "banana", "fruit" : "peach"}.。 





1. $all 
如 果 需 要 通过 多 个 元 素来 匹配 数组 ， 就 要 用 "$all" 了 。 这 样 就 会 匹配 一 组 元 素 。 
例如 ， 假 设 创 建 了 一 个 包含 3 个 元 素 的 集合 : 

> db.food,.insert({" id" : 1, "fruit" : ["apple", "banana", "peach"]}) 


> db.food,.insert({" id" : 2, "fruit" : ["apple", "kumquat", "orange"]}) 
> db.food,.insert({" id" : 3, "fruit" :; ["cherry", "banana", "apple"]}) 


要 找到 既 有 "apple" 又 有 "banana" 的 文档 ， 可 以 使 用 "$all" 来 查询 : 





> db.food.find({fruit : {$all : ["apple", "banana"]}}) 
{"_id" : 1, "fruit" :; ["apple", "banana", "peach"]} 
{"_id" : 3, "fruit" :; ["cherry", "banana", "apple"]} 





这 里 的 顺序 无 关 紧 要 。 注 意 ， 第 二 个 结果 中 "banana" 在 "apple" 之 前 。 要 是 对 
只 有 一 个 元 素 的 数组 使 用 "$all"， 就 和 不 用 "$all" 一 样 了 。 例 如 ，{fruit 
{$all : ['apple']} 和 {fruit : 'apple'} 的 查询 结果 完全 一 样 。 


也 可 以 使 用 整个 数组 进行 精确 匹配 。 但 是 ， 精 确 匹 配对 于 缺少 元 素 或 者 元 素 见 余 的 
情况 就 不 大 灵 了 。 例 如 ， 下 面 的 方法 会 匹配 之 前 的 第 一 个 文档 : 


> db.food.find({"fruit" : ["apple", "banana", "peach"]}) 
但 是 下 面 这 个 就 不 会 匹配 : 
> db.food.find({"fruit" : ["apple", "banana"]}) 
这 个 也 不 会 匹配 : 
> db.food.find({"fruit" : ["banana", "apple", "peach"]}) 
要 是 想 查询 数组 特定 位 置 的 元 素 ， 需 使 用 key.index 语法 指定 下 标 : 
> db.food.find({"fruit.2" : "peach"}) 


数组 下 标 都 是 从 0 开始 的 ， 所 以 上 面 的 表达 式 会 用 数组 的 第 3 个 元 素 和 "peach" 进 
行 匹配 。 





2. $size 
"$size" 对 于 查询 数组 来 说 也 是 非常 有 用 的 ， 顾名思义 ， 可 以 用 它 查 询 特 定 长 度 的 
数组 。 例 如 : 





> db.food.find({"fruit" : {"$size" : 3}}) 


得 到 一 个 长 度 范围 内 的 文档 是 一 种 常见 的 查询 。"$size" 并 不 能 与 其 他 查询 条 件 
(比如 "$gt") 组 合 使 用 ,但 是 这 种 查询 可 以 通过 在 文档 中 添加 一 个 "size" 键 的 方 
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式 来 实现 。 这 样 每 一 次 向 指定 数组 添加 元 素 时 ， 同 时 增加 "size" 的 值 。 比 如 ， 原 
本 这 样 的 更 新 : 





> db.food.update(criteria，{"$push"”: {"fruit" : "strawberry"}}) 
就 要 变 成 下 面 这 样 : 


> db.food.update(criteria, 
... {"$push" : {"fruit" : "strawberry"}, "$inc" : {"size" : 1}}) 


自 增 操作 的 速度 非常 快 ， 所 以 对 性 能 的 影响 微乎其微 。 这 样 存储 文档 后 ， 就 可 以 像 
下 面 这 样 查询 了 : 


> db.food.find({"size" : {"$gt" : 3}}) 
很 遗憾 ， 这 种 技巧 并 不 能 与 "$addToSet" 操作 符 同时 使 用 。 


3. $sLice 操 作 符 
本 章 前 面 已 经 提 及 ，find 的 第 二 个 参数 是 可 选 的 ， 可 以 指定 需要 返回 的 键 。 这 个 特 
别 的 "$slice" 操作 符 可 以 返回 某 个 键 匹配 的 数组 元 素 的 一 个 子 集 。 


例如 ， 假 设 现在 有 一 个 博客 文章 的 文档 ， 我 们 希望 返回 前 10 条 评论 ， 可 以 这 样 做 : 














> db.blog.posts.findOne(criteria, {"comments" : {"$slice" : 10}}) 
也 可 以 返回 后 10 条 评论 ， 只 要 在 查询 条 件 中 使 用 -10 就 可 以 了 : 
> db.blog.posts.findOne(criteria, {"comments" : {"$slice" : -10}}) 


"$slice" 也 可 以 指定 偏 移 值 以 及 希望 返回 的 元 素数 量 ， 来 返回 元 素 集合 中 间 位 置 
的 某 些 结果 : 








> db.blog.posts.findOne(criteria, {"comments" : {"$slice" : [23, 10]}}) 


这 个 操作 会 跳 过 前 23 个 元 素 ， 返 回 第 24~ 33 个 元 素 。 如 果 数 组 不 够 33 个 元 素 ， 
则 返回 第 23 个 元 素 后 面 的 所 有 元 素 。 


除非 特别 声明 ， 否 则 使 用 "$slice" 时 将 返回 文档 中 的 所 有 键 。 别 的 键 说明 符 都 是 
默认 不 返回 未 提 及 的 键 ， 这 点 与 "$sLice'" 不 太一 样 。 例 如 ， 有 如 下 博客 文章 文档 : 


{ 





"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"title" : "A blog post", 

"content™” :; "..." 

"comments" : [ 


{ 





"name" "joe", 
"email" "joe@example.com", 
"content" "nice post." 

}, 

{ 
"name" "bob", 
"email" "bob@example. com", 
"content" "good post." 

} 


} 


用 "$slice" 来 获取 最 后 一 


条 评论 ， 可 以 这 样 : 





> db.blog.posts.findOne(criteria, {"comments" : {"$slice" -1}}) 
{ 
" id" : ObjectId("4b2d75476cc613d5ee930164")， 
"title" "A blog post", 
"content™ : ",...", 
"comments" : [ 
{ 
"name" "bob", 
"email" "bob@example. com", 
"content" "good post." 
} 
] 
} 


"title" 和 "content" 都 返 


4. 返回 一 个 匹配 的 数组 元 素 


如 果 知 道 元 素 的 下 标 ， 那 么 "$slice" 非常 有 用 。 但 有 时 我 们 希望 返回 


回 了 ， 即 便 是 并 没有 显 式 地 出 现在 键 说 明 符 中 。 





与 查询 条 件 


相 匹 配 的 任意 一 个 数组 元 素 。 可 以 使 用 $ 操作 符 得 到 一 个 匹配 的 元 素 。 对 于 上 面 的 





博客 文章 示例 ， 可 以 用 如 下 的 方式 得 到 Bob 的 评论 : 
> db.blog.posts.find({"comments.name" "bob"}, {"comments.$" : 1}) 
{ 
"_ id" : ObjectId("4b2d75476cc613d5ee930164")， 
"comments" : [ 
{ 
"name" "bob", 
"email" "bob@example. com", 
"content" "good post." 
} 
] 
} 
注意 ， 这 样 只 会 返回 第 一 个 匹配 的 文档 。 如 果 Bob 在 这 篇 博客 文章 下 写 过 多 条 评 





论 ， 只 有 "comments" 数组 中 的 第 


百 





名 一 条 评论 会 被 返 


o 





5. 数组 和 范围 查询 的 相互 作用 

文档 中 的 标量 〈 非 数组 元 素 ) 必须 与 查询 条 件 中 的 每 一 条 语句 相 匹配 。 例 如 ， 如 果 
使 用 {"x”: {"$gt"” : 10，"$Lt" : 20}} 进行 查询 ， 只 会 匹配 "x" 键 的 值 大 于 
等 于 10 并 且 小 于 等 于 20 的 文档 。 但 是 ， 假 如 某 个 文档 的 "x" 字段 是 一 个 数组 ， 如 
果 "x" 键 的 某 一 个 元 素 与 查询 条 件 的 任意 一 条 语句 相 匹 配 (查询 条 件 中 的 每 条 语句 
可 以 匹配 不 同 的 数组 元 素 ) ， 那 么 这 个 文档 也 会 被 返回 。 


下 面 用 一 个 例子 来 详细 说 明 这 种 情况 。 假 如 有 如 下 所 示 的 文档 : 











:5} 
:15} 
: 25} 
: [5 :251]3 


闪闪 闪闪 


一 一 一 一 








如 果 和 希望 找到 "x'" 键 的 值 位 于 10 和 20 之 间 的 所 有 文档 ， 直 接 想 到 的 查询 方式 是 使 
用 db.test.find({"x" : {"$gt"” : 10,， "$lt" : 20}})， 希望 这 个 查询 的 返 
回 文档 是 {"x"” : 15}。 但 是 ， 实 际 返 回 了 两 个 文档 : 








> db.test.find({"x" : {"$gt" : 10, "$lt" : 20}}) 

{"Xx™ 3 15} 

{x [57 和 25] 证 
5 和 25 都 不 位 于 10 和 20 之 间 ， 但 是 这 个 文档 也 返回 了 ， 因 为 25 与 查询 条 件 中 的 
第 一 个 语句 (大 于 10) 相 匹 配 ，5 与 查询 条 件 中 的 第 二 个 语句 (小 于 20) 相 匹配 。 














这 使 对 数组 使 用 范围 查询 没有 用 : 范围 会 匹配 任意 多 元 素数 组 。 有 几 种 方式 可 以 得 
到 预期 的 行为 。 


首先 ， 可 以 使 用 "$elemMatch" 要 求 MongoDB 同时 使 用 查询 条 件 中 的 两 个 语句 与 


一 个 数组 元 素 进 行 比较 。 但 是 ， 这 里 有 一 个 问题 ，"$eLemMatch'" 不 会 匹配 非 数组 
元 素 : 


> db.test.find({"x" : {"$elemMatch" : {"$gt" : 10, "$lt" : 20}}) 
> // 查 不 到 任何 结果 








{"x”: 15} 这 个 文档 与 查询 条 件 不 再 匹配 了 ， 因 为 它 的 "x" 字段 是 个 数组 。 


如 果 当 前 查询 的 字段 上 创建 过 索引 (第 5 章 会 讲述 索引 相关 内 容 )， 可 以 使 用 min() 
和 max() 将 查询 条 件 遍 历 的 索引 范围 限制 为 "$gt" 和 "$lt" 的 值 : 











> db.test.find({"x" : {"$gt" : 10, "$lt" : 20}).min({"x" : 10}).max({"x" : 20}) 
{Xe AL5.} 





现在 ， 这 个 查询 只 会 遍历 值 位 于 10 和 20 之 间 的 索引 ， 不 再 与 5 和 25 进行 比较 。 只 
有 当前 查询 的 字段 上 建立 过 索引 时 ， 才 可 以 使 用 min() 和 max()， 而 且 ， 必 须 为 这 
个 索引 的 所 有 字段 指定 min() 和 max()。 


在 可 能 包含 数组 的 文档 上 应 用 范围 查询 时 ， 使 用 min() 和 max() 是 非常 好 的 : 如 
果 在 整个 索引 范围 内 对 数组 使 用 "$gt"/"$Lt" 查询 ， 效 率 是 非常 低 的 。 查 询 条 件 
会 与 所 有 值 进行 比较 ， 会 查询 每 一 个 索引 ， 而 不 仅仅 是 指定 索引 范围 内 的 值 。 


4.3.4 ”查询 内 髓 文档 
有 两 种 方法 可 以 查询 内 租 文 档 : 查询 整个 文档 ， 或 者 只 针对 其 键 / 值 对 进行 查询 。 


查询 整个 内 艇 文档 与 普通 查询 完全 相同 。 例 如 ， 有 如 下 文档 : 





























"name" { 
"fist Joe"; 
"last" : "Schmoe" 
}, 
"age" 45 


要 查寻 姓名 为 Joe Schmoe 的 人 可 以 这 样 : 


> db.people.find({"name" : {"first" : "Joe", "last" : "Schmoe"}}) 





但 是 ， 如 果 要 查询 一 个 完整 的 子 文档 ， 那 么 子 文档 必须 精确 匹配 。 如 果 Joe 决定 添 
加 一 个 代表 中 间 名 的 键 ， 这 个 查询 就 不 再 可 行 了 ， 因 为 查询 条 件 不 再 与 整个 内 各 文 
档 相 匹配 。 而 且 这 种 查询 还 是 与 顺序 相关 的 ，{"last" : "Schmoe", "first" 
"Joe"} 什么 都 匹配 不 到 。 


如 果 人 允许 的 话 ， 通 常 只 针对 内 各 文档 的 特定 键 值 进行 查询 ， 这 是 比较 好 的 做 法 。 这 
样 ， 即 便 数 据 模式 改变 ， 也 不 会 导致 所 有 查询 因为 要 精确 匹配 而 一 下 子 都 挂 掉 。 我 
们 可 以 使 用 点 表示 法 查询 内 航 文 档 的 键 : 

















> db.people.find({"name.first" : "Joe", "name.last" : "Schmoe"}) 
现在 ， 如 果 Joe 增加 了 更 多 的 键 ， 这 个 查询 依然 会 匹配 他 的 姓 和 名 。 
这 种 点 表示 法 是 查询 文档 区 别 于 其 他 文档 的 主要 特点 。 查 询 文 档 可 以 包含 点 来 表达 
“进入 内 藤 文 档 内 部 ”的 意思 。 点 表示 法 也 是 待 插 入 的 文档 不 能 包含 “.” 的 原因 。 
将 URL 作为 键 保存 时 经 常会 遇 到 此 类 问题 。 一 种 解决 方法 就 是 在 插入 前 或 者 提取 后 
执行 一 个 全 局 替换 ， 将 “.” 替 换 成 一 个 URL 中 的 非法 字符 。 
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当 文档 结构 变 得 更 加 复杂 以 后 ， 内 和 骸 文 档 的 匹配 需要 些许 技巧 。 例 如 ， 假 设 有 博客 
文章 若干 ， 要 找到 由 Joe 发 表 的 5 分 以 上 的 评论 。 博 客 文章 的 结构 如 下 例 所 示 : 


> db.blog.find() 


{ 
"content" :; " 
"comments" : [ 
{ 
"author" : "joe", 
"score" : 3, 
"comment" : "nice post" 
}, 
{ 
"author" : "mary", 
"score" : 6， 
"comment" : "terrible post" 
} 
] 
} 
不 能 直接 用 db.blog.Nnd({"comments" : {"author" : "joe", "score" 


{"$gte" : 5}}}) 来 查寻 。 内 骨 文 档 的 匹配 ， 必 须要 整个 文档 完全 匹配 ， 而 这 
个 查询 不 会 匹配 "comment" 键 。 使 用 db.blog.find({"comments.author" 


"joe", "comments.score"” : {"$gte"” : 5}} 也 不 行 ， 因 为 符合 author 条 件 
的 评论 和 符合 score 条 件 的 评论 可 能 不 是 同一 条 评论 。 也 就 是 说 ， 会 返回 刚才 显示 
的 那个 文档 。 因 为 "author"” : "joe" 在 第 一 条 评论 中 匹配 了 ，"score" : 6 在 








第 二 条 评论 中 匹配 了 。 

要 正确 地 指定 一 组 条 件 ， 而 不 必 指 定 每 个 键 ， 就 需要 使 用 "$elemMatch"。 这 种 模 
糊 的 命名 条 件 句 能 用 来 在 查询 条 件 中 部 分 指定 匹配 数组 中 的 单个 内 瞬 文 要 。 所 以 正 
确 的 写法 应 该 是 下 面 这 样 的 : 











> db.blog.find({"comments" : {"$elemMatch" : {"author" : "joe", 
"score" : {"$gte" : 5}}}}) 


"$elemMatch" 将 限定 条 件 进行 分 组 ， 仅 当 需 要 对 一 个 内 艇 文档 的 多 个 键 操作 时 才 
会 用 到 。 





4.4 $where 查 询 


键 / 值 对 是 一 种 表达 能 力 非 常 好 的 查询 方式 ， 但 是 依然 有 些 需 求 它 无 法 表达 。 甚 他 
方法 都 败 下 阵 时 ， 就 轮 到 "$where" 子 句 登场 了 ， 用 它 可 以 在 查询 中 执行 任意 的 
JavaScript。 这 样 就 能 在 查询 中 做 (几乎 ) 任何 事情 。 为 安全 起 见 ， 应 该 严格 限制 或 
者 消除 "$where" 语句 的 使 用 。 应 该 禁止 终端 用 户 使 用 任意 的 "$where" 语句 。 

















"$where" 语句 最 常见 的 应 用 就 是 比较 文档 中 的 两 个 键 的 值 是 否 相 等 。 假 如 我 们 有 
如 下 文档 ; 





> db.foo.insert({"apple" : 1, "banana" : 6, "peach" : 3}) 
> db.foo.insert({"apple" : 8, "spinach" : 4, "watermelon" : 4}) 


我 们 希望 返回 两 个 键 具 有 相同 值 的 文档 。 第 二 个 文档 中 ，"spinach" 和 
"watermelon" 的 值 相 同 ， 所 以 需要 返回 该 文档 。MongoDB 似乎 从 来 没有 提供 过 一 
个 $ 条 件 语 句 来 做 这 种 查询 ， 所 以 只 能 用 "$where" 子 句 借助 JavaScript 来 完成 了 : 








> db.foo.find({"$where" : function () { 
. for (var current in this) { 
for (var other in this) { 


if (current != other && this[current] == this[other]) { 
return true; 
} 
Ee } 
.} 
... return false; 
. }}); 


如 果 国 数 返回 true， 文 档 就 做 为 结果 集 的 一 部 分 返回 ， 如 果 为 false， 就 不 返回 。 


不 是 非常 必要 时 ， 一定 要 避免 使 用 "$where" 查询 ， 因 为 它们 在 速度 上 要 比 常 规 
查询 慢 很 多 。 每 个 文档 都 要 从 BSON 转换 成 JavaScript 对 象 ， 然 后 通过 " $where" 
表达 式 来 运行 。 而 且 "$where" 语句 不 能 使 用 索引 ， 所 以 只 在 走投无路 时 才 考 虑 
"$where" 这 种 用 法 。 先 使 用 常规 查询 进行 过 滤 ， 然 后 再 使 用 "$where" 语句 ， 这 
样 组 合 使 用 可 以 降低 性 能 损失 。 如 果 可 能 的 话 ， 使 用 "$where" 语句 前 应 该 先 使 用 
索引 进行 过 滤 ，"$where" 只 用 于 对 结果 进行 进一步 过 滤 。 


进行 复杂 查询 的 另 一 种 方法 是 使 用 聚合 工具 ， 第 7 章 会 详细 介绍 。 


服务 器 端 脚本 

在 服务 器 上 执行 JavaScript 时 必须 注意 安全 性 。 如 果 使 用 不 当 ， 服 务 器 端 JavaScript 
很 容易 受到 注入 攻击 ， 与 关系 型 数据 库 中 的 注入 攻击 类 似 。 不 过 ， 只 要 在 接受 输 
入 时 遵循 一 些 规 则 ， 就 可 以 安全 地 使 用 JavaScript。 也 可 以 在 运行 mongod 时 指定 
--noscripting 选项 ， 完 全 关闭 JavaScript 的 执行 。 


JavaScript 的 安全 问题 都 与 用 户 在 服务 器 上 提供 的 程序 相关 。 如 果 和 希望 避免 这 些 风 
险 ， 那 么 就 要 确保 不 能 直接 将 用 户 输入 的 内 容 传 递 给 mongod。 例 如 ， 假 如 你 希望 打 
印 一 名 “Hello, name!”， 这 里 的 name 是 由 用 户 提供 的 。 使 用 如 下 所 示 的 JavaScript 
国 数 是 非常 容易 想到 的 : 
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> func = "function() { print('Hello, "+name+"!'); }" 


如 果 这 里 的 name 是 一 个 用 户 定 义 的 变量 ， 它 可 能 会 是 "'); db.dropDatabase(); 
print('" 这样 一 个 字符 串 ， 因 此 ， 上 面 的 代码 会 被 转换 成 如 下 代码 : 


> func = "function() { print('Hello, '); db.dropDatabase(); print('!'); }" 
如 果 执 行 这 段 代 码 ， 你 的 整个 数据 库 就 会 被 删除 ! 
为 了 避免 这 种 情况 ， 应 该 使 用 作用 域 来 传递 name 的 值 。 以 Python 为 例 : 


func = pymongo.code.Code("function() { print('Hello, '+username+'!'); } 
{"username": name}) 


现在 ,数据库 会 输出 如 下 的 内 容 ， 不 会 有 任何 风险 : 








Hello, '); db.dropDatabase(); print('! 


由 于 代码 实际 上 可 能 是 字符 串 和 作用 域 的 混合 体 ， 所 以 大 多 数 驱 动 程序 都 有 一 种 特 
殊 类 型 ， 用 于 向 数据 库 传递 代码 。 作 用 域 是 用 于 表示 变量 名 和 值 的 映射 的 文档 。 对 
于 要 被 执行 的 JavaScript 函数 来 说 ， 这 个 映射 就 是 一 个 局 部 作用 域 。 因 此 ， 在 上 面 
的 例子 中 ， 函 数 可 以 访问 username 这 个 变量 ， 这 个 变量 的 值 就 是 用 户 传 进来 的 字 
符 串 。 








shell 中 没有 包含 作用 域 的 代码 类 型 ， 所 以 作用 域 只 能 在 字符 串 或 者 JavaScript 
函数 中 使 用 。 











4.5 游标 
数据 库 使 用 游标 返回 find 的 执行 结果 。 客 户 端 对 游标 的 实现 通常 能 够 对 最 终结 果 


进行 有 效 的 控制 。 可 以 限制 结果 的 数量 ， 略 过 部 分 结果 ， 根 据 任 意 键 按 任意 顺序 的 
组 合 对 结果 进行 各 种 排序 ， 或 者 是 执行 其 他 一 些 强大 的 操作 。 


要 想 从 shell 中 创建 一 个 游标 ， 首 先 要 对 集合 填充 一 些 文档 ， 然 后 对 其 执行 查询 ， 并 
将 结果 分 配给 一 个 局 部 变量 (用 var 声明 的 变量 就 是 局 部 变量 )。 这 里 ， 先 创建 一 
个 简单 的 集合 ， 而 后 做 个 查询 ， 并 用 cursor 变量 保存 结果 : 








> for(i=0; i<100; i++) { 
i db.collection.insert({x : i}); 
.} 


> var cursor = db.collection.find(); 








这 人 么 做 的 好 处 是 可 以 一 次 查看 一 条 结果 。 如 果 将 结果 放 在 全 局 变量 或 者 就 没有 放 在 
变量 中 ，MongoDB shell 会 自动 迭代 ， 自 动 显示 最 开始 的 若干 文档 。 也 就 是 在 这 之 
前 我 们 看 到 的 种 种 例子 ， 一般 大 家 只 想 通 过 shell 看 看 集合 里 面 有 什么 ， 而 不 是 想 在 
其 中 实际 运行 程序 ， 这 样 设计 也 就 很 合适 。 


要 迭代 结果 ， 可 以 使 用 游标 的 next 方法 。 也 可 以 使 用 hasNext 来 查看 游标 中 是 否 
还 有 其 他 结果 。 典 型 的 结果 遍历 如 下 所 示 : 


























> while (cursor.hasNext()) { 
obj = cursor.next(); 
// do stuff 
.} 





cursor.hasNext() 检查 是 否 有 后 续 结果 存在 ， 然 后 用 cursor.next() 获得 它 。 


游标 类 还 实现 了 JavaScript 的 从 代 器 接口 ， 所 以 可 以 在 forEach 循环 中 使 用 : 





> var cursor = db.people.find(); 
> cursor.forEach(function(x) { 

a print(x.name); 

... }); 
adam 
matt 
zak 





调用 find 时 ，shell 并 不 立即 查询 数据 库 ， 而 是 等 待 真正 开始 要 求 获 得 结果 时 才 发 

送 查 询 ， 这 样 在 执行 之 前 可 以 给 查询 附加 额外 的 选项 。 几 乎 游标 对 象 的 每 个 方法 都 

返回 游标 本 身 ， 这 样 就 可 以 按 任意 顺序 组 成 方法 链 。 例 如 ， 下 面 几 种 表达 是 等 价 的 : 
> var cursor = db.foo.find().sort({"x"” : 1}).limit(1).skip(10); 


> var cursor = db.foo.find().limit(1).sort({"x" : 1}).skip(10); 
> var cursor = db.foo.find().skip(10).limit(1).sort({"x" : 1}); 


此 时 ， 查 询 还 没有 真正 执行 ， 所 有 这 些 函 数 都 只 是 构造 查询 。 现 在 ,假设 我 们 执行 
如 下 操作 : 


> cursor.hasNext() 




















这 时 ， 查询 被 发 往 服 务 器 。shell 立刻 获取 前 100 个 结果 或 者 前 4 MB 数据 (两 者 之 
中 较 小 者 ) ， 这 样 下 次 调用 next 或 者 hasNext 时 就 不 必 再 次 连接 服务 器 取 结 果 了 。 
客户 端 用 光 了 第 一 组 结果 ，shell 会 再 一 次 联系 数据 库 ， 使 用 getMore 请 求 提 取 更 
多 的 结果 。getMore 请 求 包含 一 个 查询 标识 符 ， 向 数据 库 询 问 是 否 还 有 更 多 的 
结果 ， 如 果 有 ， 则 返回 下 一 批 结果 。 这 个 过 程 会 一 直 持续 到 游标 耗 尽 或 者 结果 全 部 
返回 。 









































Limit、 ee 


5.1 
常用 的 查询 选项 就 是 限制 返回 结果 的 数量 、 忽 略 一 定数 量 的 结果 以 及 排序 。 所 有 
些 选 项 nn 


要 限制 结果 数量 ， 可 在 find 后 使 用 Limit 函数 。 例 如 ， 只 返回 3 个 结果 ， 可 以 





> db.c.find().Limit(3) 





要 是 匹配 的 结果 不 到 3 个 ， 则 返回 匹配 数量 的 结果 。Limit 指定 的 是 上 限 ， 而 非 
下 限 。 


skip 与 Limit 类 似 : 


> db.c.find().skip(3) 





上 面 的 操作 会 略 过 前 三 个 匹配 的 文档 ， 然 后 返回 余下 的 文档 。 如 果 集 合 里 面 能 匹配 
的 文档 少 于 3 个 ， 则 不 会 返回 任何 文档 。 


sort 接受 一 个 对 象 作为 参数 ， 这 个 对 象 是 一 组 键 / 值 对 ， 键 对 应 文档 的 键 名 ， 值 
代表 排序 的 方向 。 排 序 方向 可 以 是 1 (升序 ) 或 者 -1 (降序 )。 如 果 指 定 了 多 个 键 ， 
则 按照 这 些 键 被 指定 的 顺序 逐个 排序 。 例 如 ， 要 按照 "username'" 升序 及 "age" 降 
序 排序 ， 可 以 这 样 写 : 





> db.c.find().sort({username : 1, age : -1}) 


这 3 个 方法 可 以 组 合 使 用 。 这 对 于 分 页 非常 有 用 。 例 如 ， 你 有 个 在 线 商 店 ， 有 人 想 
搜索 mp3。 若 是 想 每 页 返回 50 个 结果 ， 而 且 按 照 价格 从 高 到 低 排 序 ， 可 以 这 样 写 : 





> db.stock.find({"desc" : "mp3"}).limit(50).sort({"price" : -1}) 





点 击 “ 下 一 页 ”可 以 看 到 更 多 的 结果 ， 通 过 skip 也 可 以 非常 简单 地 实现 ， 只 需要 
eh Re 一 页 显示 了 ) : 

















> db.stock.find({"desc" : "mp3"}).limit(50).skip(50).sort({"price" : -1}) 





然而 ， 略 过 过 多 的 结果 会 导致 性 能 问题 ， 下 一 小 节 会 讲述 如 何 避免 略 过 大 量 结果 。 


比较 顺序 

MongoDB 处 理 不 同类 型 的 数据 是 有 一 定 顺序 的 。 有 了 时 一 个 键 的 值 可 能 是 多 种 类 型 
的 ， 例 如 ， 整 型 和 布尔 型 ,或 者 字符 串 和 nuLL。 如 果 对 这 种 混合 类 型 的 键 排序 ， 甚 
排序 顺序 是 预先 定义 好 的 。 优 先 级 从 小 到 大 ， 其 顺序 如 下 : 











(1) 最 小 值 ， 

(2) null; 

(3) 数字 ( 整 型 、 
(4) 字符 串 ， 

(5) 对 象 /文档 ， 
(6) 数组 ， 

(7) 三 进 制 数据 ，; 
(8) 对 象 ID; 

(9) 布尔 型 ， 
(10) 日 期 型 ， 
(11) 时 间 蕉 ， 
(12) 正则 表达 式 ， 
(13) 最 大 值 。 


长 整 型 、 


双 精 度 ) ， 


4.5.2 


避免 使 用 skip 略 过 大 量 


用 skip 略 过 少量 的 文档 还 是 不 错 的 。 


结果 


但 是 要 是 数量 非常 多 的 话 ，skip 就 会 变 得 很 


慢 ， 因 为 要 先 找到 需要 被 略 过 的 数据 ， 然 后 再 抛弃 这 些 数据 。 大 多 数 数 据 库 都 会 在 
索引 中 保存 更 多 的 元 数据 ， 用 于 处 理 skip， 但 是 MongoDB 目 前 还 不 支持 ， 所 以 要 尽 


量 避 免 略 过 太 多 的 数据 。 通 芝 可 以 利用 上 次 的 结果 


1. 不 用 skip 对 结果 分 页 
最 简单 的 分 页 方法 就 是 用 Limit 返 


于 开始 的 偏 移 量 返 回 。 

















: 略 过 的 数据 比较 多 时 ， 速 





> // 不 要 这 么 | 
> var pagel 
> Var page2 
> Var page3 














来 计算 下 一 次 查询 条 件 。 


个 后 续 页 面 作为 相对 





度 会 变 得 很 慢 


db .foo.find(criteria).Limit(100) 
db.foo.find(criteria).skip(100).Limit(100) 
db.foo.find(criteria).skip(200).Limit(100) 


然而 ， 一 般 来 讲 可 以 找到 一 种 方法 在 不 使 用 skip 的 情况 下 实现 分 页 ， 这 取决 于 查询 
本 身 。 例 如 ， 要 按照 "date" 降序 显示 文档 列表 。 可 以 用 如 下 方式 获取 结果 的 第 一 页 : 


> var pagel = db.foo.find().sort({"date" : 


-1}+).Limit(100) 


然后 ， 可 以 利用 最 后 一 个 文档 中 "date" 的 值 作 为 查询 条 件 ， 来 获取 下 一 页 : 





var Latest = null; 
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// 显示 第 一 页 

while (pagel.hasNext()) { 
latest = pagel.next(); 
dispLay(Latest ) ; 

} 


// 获取 下 一 页 
var page2 = db.foo.find({"date" : {"$gt" : latest.date}}); 
page2.sort({"date"” : -1}).limit(100); 


这 样 查询 中 就 没有 skip 了 。 


2. 随机 选取 文档 

从 集合 里 面 随机 挑选 一 个 文档 算是 个 常见 问题 。 最 笨 的 〈 也 很 慢 的 ) 做 法 就 是 先 计 
算 文档 总 数 ， 然 后 选择 一 个 从 0 到 文档 数量 之 间 的 随机 数 ， 利 用 find 做 一 次 查询 ， 
略 过 这 个 随机 数 那 么 多 的 文档 ， 这 个 随机 数 的 取 值 范围 为 0 到 集合 中 文档 的 总 数 : 
// 不 要 这 么 用 

var total = db.foo.count() 


var random = Math.floor(Math.random()*total) 


> 
> 
> db.foo.find().skip(random) .limit(1) 





这 种 选取 随机 文档 的 做 法 效率 太 低 : 首先 得 计算 总 数 (要 是 有 查询 条 件 就 会 很 费 
时 )， 然 后 用 skip 略 过 大 量 结果 也 会 非常 耗 时 。 
略微 动 动脑 筋 ， 从 集合 里 面 查找 一 个 随机 元 素 还 是 有 好 得 多 的 办 法 的 。 秘 诀 就 是 在 


插入 文档 时 给 每 个 文档 都 添加 一 个 额外 的 随机 键 。 例 如 在 shell 中 ， 可 以 用 Math. 
random( ) (产生 一 个 0~1 的 随机 数 ) : 











> db.people.insert({"name" : "joe", "random" : Math.random()}) 
> db.people.insert({"name" : "john", "random" : Math.random()}) 
> db.people.insert({"name" : "jim", "random" : Math.random()}) 





这 样 ， 想 要 从 集合 中 查找 一 个 随机 文档 ， 只 要 计算 一 个 随机 数 并 将 其 作为 查询 条 件 
就 好 了 ， 完 全 不 用 skip: 


> var random = Math.random() 
> result = db.foo.findOne({"random" : {"$gt" : random}}) 


偶尔 也 会 遇 到 产生 的 随机 数 比 集合 中 所 有 随机 值 都 大 的 情况 ， 这 时 就 没有 结果 返 
了 。 遇 到 这 种 情况 ， 那 就 将 条 件 操作 符 换 一 个 方向 : 


> if (result == null) { 
5 result = db.foo.findOne({"random" : {"$lt" : random}}) 





.} 
要 是 集合 里 面 本 就 没有 文档 ， 则 会 返回 nuLL， 这 说 得 通 。 
这 种 技巧 还 可 以 和 其 他 各 种 复杂 的 查询 一 同 使 用 ， 仅 需要 确保 有 包含 随机 键 的 索引 








即 可 。 例 如 ， 想 在 加 州 随机 找 一 个 水 暖 工 ， 可 以 对 "profession"、"state" 和 
"random" 建立 索引 : 


> db.people.ensureIndex({"profession" : 1, "state" : 1, "random" : 1}) 
这 样 就 能 很 快 得 出 一 个 随机 结果 (关于 索引 ， 详 见 第 5 章 )。 
4.5.3 高 级 查询 选项 
有 两 种 类 型 的 查询 :简单 查询 (plain query) 和 封装 查询 (wrapped query)。 简 单 查 
询 就 像 下 面 这 样 : 


> Var cursor = db.foo.find({"foo" : "bar"}) 





有 一 些 选 项 可 以 用 于 对 查询 进行 “封装 ”。 例 如 ， 假设 我 们 执行 一 个 排序 : 

> Var cursor = db.foo.find({"foo" : "bar"}).sort({"x" : 1}) 
实际 情况 不 是 将 {"foo"” : "bar"} 作为 查询 直接 发 送 给 数据 库 ， 而 是 先 将 查询 封 
装 在 一 个 更 大 的 文档 中 。shell 会 把 查询 从 {"foo”: "bar"} 转换 成 {"$query"” : 
{"foo" : "bar"}，"$orderby"”: {"x"” : 1}}。 


绝 大 多 数 驱 动 程序 都 提供 了 辅助 函数 ， 用 于 向 查询 中 添加 各 种 选项 。 下 面 列举 了 其 
他 一 些 有 用 的 选项 。 
。 $maxscan : integer 

指定 本 次 查询 中 扫描 文档 数量 的 上 限 。 


> db.foo.find(criteria). addSpecial ("$maxscan", 20) 




















如 果 不 希 望 查询 耗 时 太 多 ， 也 不 确定 集合 中 到 底 有 多 少 文档 需要 扫描 ， 那 么 可 以 
使 用 这 个 选项 。 这 样 就 会 将 查询 结果 限定 为 与 被 扫描 的 集合 部 分 相 匹配 的 文档 。 
这 种 方式 的 一 个 坏处 是 ， 某 些 你 希望 得 到 的 文档 没有 扫描 到 。 























。 $min : document 
查询 的 开始 条 件 。 在 这 样 的 查询 中 ， 文 档 必 须 与 索引 的 键 完全 匹配 。 查 询 中 会 强 
制 使 用 给 定 的 索引 。 
在 内 部 使 用 时 ， 通 常 应 该 使 用 "$gt" 代替 "$min"。 可 以 使 用 "$min'" 强制 指定 
一 次 索引 扫描 的 下 边界 ， 这 在 复杂 查询 中 非常 有 用 。 

。 $max : document 
查询 的 结束 条 件 。 在 这 样 的 查询 中 ， 文 档 必 须 与 索引 的 键 完全 匹配 。 查 询 中 会 强 
制 使 用 给 定 的 索引 。 
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在 内 部 使 用 时 ， 通 常 应 该 使 用 "$lg" 而 不 是 "$max"。 可 以 使 用 "$max" 强制 指 
定 一 次 索引 扫描 的 上 边界 ， 这 在 复杂 查询 中 非常 有 用 。 


。 $showDiskLoc : true 
在 查询 结果 中 添加 一 个 "$diskLoc" 字段 ， 用 于 显示 该 条 结果 在 磁盘 上 的 位 置 。 
例如 : 
> db.foo.find(). addSpecial('$showDiskLoc',true) 
{ " id" : 0, "$diskLoc" : { "file" : 2, "offset" : 154812592 } } 
{ " id" : 1, "$diskLoc" : { "file" : 2, "offset" : 154812628 } } 
文件 号 码 显示 了 这 个 文档 所 在 的 文件 。 如 果 这 里 使 用 的 是 test 数据库， 那么 这 个 
文档 就 在 test.2 文件 中 。 第 二 个 字段 显示 的 是 该 文档 在 文件 中 的 偏 移 量 。 








4.5.4 获取 一 致 结果 
数据 处 理 通常 的 做 法 就 是 先 把 数据 从 MongoDB 中 取出 来 ， 然 后 做 一 些 变换 ， 最 后 
再 存 回去 : 














cursor = db.foo.find(); 


while (cursor.hasNext()) { 
var doc = cursor.next(); 
doc = process(doc); 
db.foo.save(doc); 


} 
结果 比较 少 ， 这 样 是 没 问 题 的 ， 但 是 如 果 结 果 集 比较 大 ，MongoDB 可 能 会 多 次 返 
回 同一 个 文档 。 为 什么 呢 ? 想象 一 下 文档 究竟 是 如 何 存储 的 吧 。 可 以 将 集合 看 做 一 
个 文档 列表 ， 如 图 4-1 所 示 。 雪 花 代表 文 档 ， 因 为 每 一 个 文档 都 是 美丽 且 唯 一 的 。 























图 4-1: 待 查询 的 集合 

这 样 ， 进 行 查找 时 ， 从 集合 的 开头 返回 结果 ， 游 标 不 断 向 右 移动 。 程 序 获 取 前 100 
个 文档 并 处 理 。 将 这 些 文档 保存 回 数据 库 时 ， 如 果 文 档 体积 增加 了 ， 而 预 留 空间 不 
足 ， 如 图 4-2 所 示 ， 这 时 就 需要 对 体积 增 大 后 的 文档 进行 移动 。 通 常会 将 它们 挪 至 
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集合 的 末尾 处 (如 图 4-3 所 示 ) 。 

















图 4-2: 体积 变 大 的 文档 ， 可 能 无 法 保存 回 原先 的 位 置 

















图 4-3: MongoDB 会 为 更 新 后 无 法 放 回 原 位 置 的 文档 重新 分 配 存储 空间 


现在 ,程序 继续 获取 大 量 的 文档 ， 如 此 往复 。 当 游标 移动 到 集合 末尾 时 ， 就 会 返回 
因 体积 太 大 无 法 放 回 原 位 置 而 被 移动 到 集合 末尾 的 文档 ， 如 图 4-4 所 示 。 














| 


图 4-4: 游标 可 能 会 返回 那些 由 于 体积 变 大 而 被 移动 到 集合 末尾 的 文档 


应 对 这 个 问题 的 方法 就 是 对 查询 进行 快照 (snapshot)。 如 果 使 用 了 这 个 选项 ， 
询 就 在 "_id" 索引 上 遍历 执行 ， 这 样 可 以 保证 每 个 文档 只 被 返回 一 次 。 例 如 ， 











ES 
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db .foo.find() 改 为 : 


> db.foo.find().snapshot() 


快照 会 使 查询 变 慢 ， 所 以 应 该 只 在 必要 时 使 用 快照 。 例 如 ，mongodump (用 于 备 
份 ， 第 22 章 会 介绍 ) 默认 在 快照 上 使 用 查询 。 


所 有 返回 单 批 结果 的 查询 都 被 有 效 地 进行 了 快照 。 当 游标 正在 等 待 获取 下 一 批 结果 
时 ， 如 果 集 合 发 生 了 变化 ， 数 据 才 可 能 出 现 不 一 致 。 


4.5.5 游标 生命 周期 
看 待 游标 有 两 种 角度 : 客户 端的 游标 以 及 客户 端 游 标 表示 的 数据 库 游标 。 前 面 讨论 
的 都 是 客户 端的 游标 ， 接 下 来 简要 看 看 服务 器 端 发 生 了 什么 。 


在 服务 器 端 ， 游 标 消 耗 内 存 和 其 他 资源 。 游 标志 历尽 了 结果 以 后 ， 或 者 客户 端 发 来 
消息 要 求 终止 ， 数 据 库 将 会 释放 这 些 资 源 。 释 放 的 资源 可 以 被 数据 库 另 作 他 用 ， 这 
是 非常 有 益 的 ， 所 以 要 尽量 保证 尽快 释放 游标 (在 合理 的 前 提 下 )。 


还 有 一 些 情况 导致 游标 终止 (随后 被 清理 )。 首 先 ， 游 标 完成 匹配 结果 的 迭代 时 ， 它 
会 清除 自身 。 另 外 ， 如 果 客 户 端的 游标 已 经 不 在 作用 域内 了 ， 驱 动 程序 会 向 服务 器 
发 送 一 条 特别 的 消息 ， 让 其 销毁 游标 。 最 后 ， 即 便 用 户 没 有 迭代 完 所 有 结果 ， 并 且 
游标 也 还 在 作用 域 中 ， 如 果 一 个 游标 在 10 分 钟 内 没有 使 用 的 话 ， 数 据 库 游 标 也 会 自 
动 销毁 。 这 样 的 话 ， 如 果 客 户 端 骨 省 或 者 出 错 ，MongoDB 就 不 需要 维护 这 上 千 个 
被 打开 却 不 再 使 用 的 游标 。 


这 种 “超时 销毁 ”的 行为 是 我 们 希望 的 : 极 少 有 应 用 程序 希望 用 户 花 费 数 分 钟 坐 在 
那里 等 待 结 果 。 然 而 ， 有 了 时 的 确 希 望 游 标 持 续 的 时 间 长 一 些 。 车 是 如 此 的 话 ， 多 数 
驱动 程序 都 实现 了 一 个 叫 immortal 的 函数 ， 或 者 类 似 的 机 制 ， 来 告知 数据 库 不 要 
让 游标 超时 。 如 果 关 闭 了 游标 的 超时 时 间 ， 则 一 定 要 迭代 完 所 有 结果 ， 或 者 主动 将 
其 销毁 ， 以 确保 游标 被 关闭 。 否 则 它 会 一 直 在 数据 库 中 消耗 服务 器 资源 。 


4.6 数据库 命令 

有 一 种 非常 特殊 的 查询 类 型 叫 作 数据 库 命令 (database command) 。 前 面 已 经 介绍 过 
文档 的 创建 、 更 新 、 删 除 以 及 查询 。 这 些 都 是 数据 库 命令 的 使 用 范畴 ， 包 括 管理 性 
的 任务 (比如 关闭 服务 器 和 克隆 数据 库 ) 、 统 计 集 合 内 的 文档 数量 以 及 执行 聚合 等 。 
本 节 主 要 讲述 数据 库 命 令 ， 在 数据 操作 、 管 理 以 及 监控 中 ， 数 据 库 命令 都 是 非常 有 
用 的 。 例 如 ， 删 除 集合 是 使 用 "drop" 数据 库 命令 完成 的 : 



















































































r= 














> db.runCommand({"drop" : "test"}); 


{ 
"nIndexesWas"” : 1, 
"msg" : "indexes dropped for collection", 
"ns"” : "test.test", 
"ok" : true 
} 


也 许 你 对 shell 辅助 函数 比较 熟悉 ， 这 些 辅 助 函 数 封装 数据 库 命令 ， 并 提供 更 加 简单 
的 接口 : 


> db.test.drop() 


通常 ， 只 使 用 shell 辅助 函数 就 可 以 了 ， 但 是 了 解 它们 底层 的 命令 很 有 帮助 。 尤 其 是 
当 使 用 旧版 本 的 shell 连接 到 新 版 本 的 数据 库 上 时 ， 这 个 shell 可 能 不 支持 新 版 数据 
库 的 一 些 命令 ， 这 时 候 就 不 得 不 直接 使 用 runCommand ( ) 。 


在 前 面 的 章节 中 已 经 看 到 过 一 些 命 令 了 ， 比 如 ， 第 3 章 使 用 getLastError 来 查看 
更 新 操作 影响 到 的 文档 数量 : 


> db.count.update({x : 1}, {$inc : {x : 1}}, false, true) 
> db.runCommand({getLastError : 1}) 











{ 
"err"” :; null, 
"updatedExisting" : true, 
SH ,Dy 
"ok" : true 

} 


本 节 会 更 深入 地 介绍 数据 库 命令 ,一 起 来 看 看 这 些 数据 库 命 令 到 底 是 什么 ， 到 底 是 
怎么 实现 的 。 本 节 也 会 介绍 MongoDB 提供 的 一 些 非常 有 用 的 命令 。 在 shell 中 运行 
db.ListCommands() 可 以 看 到 所 有 的 数据 库 命令 。 








数据 库 命令 工作 原理 

数据 库 命令 总 会 返回 一 个 包含 "ok" 键 的 文档 。 如 果 "ok" 的 值 是 1， 说 明 命令 执行 
成 功 了 ; 如果 值 是 0， 说 明 由 于 一 些 原因 ， 命 令 执行 失败 。 

如 果 "ok'" 的 值 是 0， 那 么 命令 的 返回 文档 中 就 会 有 一 个 额外 的 键 "errmsg"。 它 的 


值 是 一 个 字符 串 ， 用 于 描述 命令 的 失败 原因 。 例 如 ， 如 果 试 着 在 上 一 节 已 经 删除 的 
集合 上 再 次 执行 drop 命令 




















> db.runCommand({"drop" : "test"}); 
{ "errmsg" : "ns not found", "ok" : false } 


MongoDB 中 的 命令 被 实现 为 一 种 特殊 类 型 的 查询 ， 这 些 特殊 的 查询 会 在 $cmd 集合 





上 执行 。runCommand 只 是 接受 一 个 命令 文档 ， 并 且 执 行 与 这 个 命令 文档 等 价 的 查 
询 。 于 是 ，drop 命令 会 被 转换 为 如 下 代码 : 


db.$cmd.findOne({"drop" : "test"}); 





当 MongoDB 服务 器 得 到 一 个 在 $cmd 集合 上 的 查询 时 ， 不 会 对 这 个 查询 进行 通常 
的 查询 处 理 ， 而 是 会 使 用 特殊 的 逻辑 对 其 进行 处 理 。 几 乎 所 有 的 MongoDB 驱动 程 
序 都 会 提供 一 个 类 似 runCommand 的 辅助 函数 ， 用 于 执行 命令 ， 而 且 命 令 总 是 能 够 
以 简单 查询 的 方式 执行 。 

有 些 命令 需要 有 管理 员 权 限 ， 而 且 要 在 admin 数据 库 上 才能 执行 。 如 果 在 其 他 数据 
库 上 执行 这 样 的 命令 ， 就 会 得 到 一 个 "access denied" (访问 被 拒绝 ) 错误 。 如 果 
当前 位 于 其 他 的 数据 库 ， 但 是 需要 执行 一 个 管理 员 命令 ， 可 以 使 用 adminCommand 
而 不 是 runCommand : 























> use temp 

switched to db temp 

> db.runCommand({shutdown:1}) 

{ "errmsg" : "access denied; use admin db", "ok" : 0 } 
> db.adminCommand({"shutdown" : 1}) 


MongoDB 中 ， 数 据 库 命令 是 少数 与 字段 顺序 相关 的 地 方 之 一 : 命令 名 称 必 须 是 命 
令 中 的 第 一 个 字段 。 因 此 , {"getLastError"” : 1，"w" : 2} 是 有 效 的 命令 ， 而 
{"w” : 2，"getLastError" : 1} 不 是 。 








第 二 部 分 





议 计 应 用 





本 章 介绍 MongoDB 的 索引 ， 索 引 可 以 用 来 优化 查询 ， 而 且 在 某 些 特定 类 型 的 查询 


中 ， 索 引 是 必 不 可 少 的 。 


。 什么 是 索引 ? 为 什么 要 用 索引 ? 

。 如 何 选择 需要 建立 索引 的 字段 ? 

。 如 何 强制 使 用 索引 ? 如 何 评估 索引 的 效率 ? 
。 创建 索引 和 删除 索引 。 


为 集合 选择 合适 的 索引 是 提高 性 能 的 关键 。 


5.1 索引 简介 





数据 库 索引 与 书籍 的 索引 类 似 。 有 了 索引 就 不 需要 翻 整 本 书 ， 数 据 库 可 以 直接 在 索 
引 中 查找 ， 在 索引 中 找到 条 目 以 后 ， 就 可 以 直接 跳 转 到 目标 文档 的 位 置 ， 这 能 使 查 





找 速度 提高 几 个 数量 级 。 











不 使 用 索引 的 查询 称 为 全 表 扫 描 〈 这 个 术语 来 自 关 系 型 数据 库 ) ， 也 就 是 说 ， 服 务 器 
必须 查找 完 一 整 本 书 才能 找到 查询 结果 。 这 个 处 理 过 程 与 我 们 在 一 本 没有 索引 的 书 
中 查找 信息 很 像 : 从 第 1 页 开始 一 直 读 完整 本 书 。 通 党 来 说 ， 应 该 尽量 避免 全 表 扫 
描 ， 因 为 对 于 大 集合 来 说 ， 全 表 扫 描 的 效率 非常 低 。 


来 看 一 个 例子 ， 我 们 创建 了 一 个 拥有 1 000 000 个 文档 的 集合 (如果 你 想 要 10 000 000 
或 者 100 000 000 个 文档 也 行 ， 只 要 你 有 那个 耐心 ) : 
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> for (i=0; i<1000000; i++) { 
db.users.insert( 


{ 
i i 
"username" : "user"+i, 
"age" : Math.floor(Math.random()*120), 
"created" : new Date() 
} 


和 je 
下 二 














如 果 在 这 个 集合 上 做 查询 ， 可 以 使 用 explain() 函数 查看 MongoDB 在 执行 查询 的 
过 程 中 所 做 的 事情 。 下 面试 着 查询 一 个 随机 的 用 户 名 : 























> db.users.find({username: 


{ 
"cursor" : "BasicCursor", 
"nscanned" : 1000000, 
"nscannedObjects" : 1000000, 
Te 和 
"millis" : 721, 
"nYields" : 0, 
"nChunkSkips" : 0, 
"isMultikey" : false, 
"indexOnly" : false, 
"indexBounds" : { 
} 

} 


5.2 市 会 详细 介绍 输出 信息 里 的 这 些 字 有 段 ， 


"user101"}) .explain() 


目前 来 说 可 以 忽略 大 多 数字 段 。 


"nscanned" 是 MongoDB 在 完成 这 个 查询 的 过 程 中 扫描 的 文档 总 数 。 可 以 看 到 ， 
这 个 集合 中 的 每 个 文档 都 被 扫描 过 了 。 也 就 是 说 ， 为 了 完成 这 个 查询 ，MongoDB 
查看 了 每 一 个 文档 中 的 每 一 个 字段 。 这 个 查询 耗费 了 将 近 1 秒 的 时 间 才 完成 : 








"millis" 字段 显示 的 是 这 个 查询 耗费 的 毫秒 数 。 


字段 "n" 显示 了 查询 结果 的 数量 ， 这 里 是 1， 














username 为 "user101" 的 文档 。 注 意 ， 由 于 不 知道 集合 里 的 username 字段 是 叭 








因为 这 个 集合 中 确实 只 有 一 个 


Fy 








一 的 ，MongoDB 不 得 不 查看 集合 中 的 每 一 个 文档 。 为 了 优化 查询 ， 将 查询 结果 限 
制 为 1， 这 样 MongoDB 在 找到 一 个 文档 之 后 就 会 停止 了 : 





> db.users.find({username: 


{ 
"cursor" : "BasicCursor", 
"nscanned" : 102, 
"nscannedObjects" : 102, 
We 
"millis" : 2, 
"nYields" : 0, 


"user101"}).1limit(1).explain() 
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"nChunkSkips" : 0, 
"isMultikey" : false, 
"indexOnly" : false, 
"indexBounds" : { 


} 


现在 ， 所 扫描 的 文档 数量 极 大 地 减少 了 ， 而 且 整 个 查询 几乎 是 瞬间 完成 的 。 但 是 ， 
这 个 方案 是 不 现实 的 ,如果 要 查找 的 是 user999999 呢 ? 我 们 仍然 不 得 不 遍历 整个 
集合 ,而 且 ， 随 着 用 户 的 增加 ， 查 询 会 越 来 越 慢 。 

对 于 此 类 查询 ， 索 引 是 一 个 非常 好 的 解决 方案 : 索引 可 以 根据 给 定 的 字段 组 织 数 据 ， 
让 MongoDB 能 够 非常 快 地 找到 目标 文档 。 下 面 尝 试 在 username 字段 上 创建 一 个 
索引 : 





> db.users.ensureIndex({"username" : 1}) 


由 于 机 器 性 能 和 集合 大 小 的 不 同 ， 创建 索 引 有 可 能 需要 花 几 分 钟 时 间 。 如 果 
对 ensureIndex 的 调用 没 能 在 几 秒 钟 后 返回 ， 可 以 在 另 一 个 shell 中 执行 
db.current0p() 或 者 是 检查 mongod 的 日 志 来 查看 索引 创建 的 进度 。 


索引 创建 完成 之 后 ， 再 次 执行 最 初 的 查询 : 


> db.users.find({"username" : "user101"}) .expLain() 
{ 

"cursor" : "BtreeCursor username 1", 

"nscanned" : 1, 

"nscannedObjects" : 1, 

sh ri; 

"mete 3 

"nYields" : 0， 


"nChunkSkips" : 0, 
"isMultikKey" : false, 
"indexOnly" : false, 
"indexBounds" : { 
"username" : [ 
[ 
"user101", 
"user101" 


} 
这 次 explain() 的 输出 内 容 比 之 前 复杂 一 些 ， 但 是 目前 我 们 只 需要 注意 "n'"、 
"nscanned" 和 "millis" 这 几 个 字段 ， 可 以 忽略 其 他 字段 。 可 以 看 到 ， 这 个 查询 
现在 几乎 是 瞬间 完成 的 〈 甚 至 可 以 更 好 ) ， 而 且 对 于 任意 username 的 查询 ， 所 耗费 
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的 时 间 基 本 一 致 : 


> db.users.find({username: "user999999"}).explain().millis 
1 


可 以 看 到 ， 使 用 了 索引 的 查询 几乎 可 以 瞬间 完成 ， 这 是 非常 激动 人 心 的 。 然 而 ,使 
用 索引 是 有 代价 的 : 对 于 添加 的 每 一 个 索引 ， 每 次 写 操作 (插入 、 更 新 、 删 除 ) 都 
将 耗费 更 多 的 时 间 。 这 是 因为 ， 当 数据 发 生变 动 时 ，MongoDB 不 仅 要 更 新 文档 ， 
还 要 更 新 集合 上 的 所 有 索引 。 因 此 ，MongoDB 限制 每 个 集合 上 最 多 只 能 有 64 个 索 
引 。 通 常 ， 在 一 个 特定 的 集合 上 ， 不 应 该 拥有 两 个 以 上 的 索引 。 于 是 ， 挑 选 合适 的 
字段 建立 索引 非常 重要 。 




















MongoDB 的 索引 几乎 与 传统 的 关系 型 数据 库 索 引 一 模 一 样 ， 所 以 如 果 已 经 

心 掌握 了 那些 技巧 ， 则 可 以 跳 过 本 节 的 语法 说 明 。 后 面 会 介绍 一 些 索引 的 基 

必 ' 础 知识 ， 但 一 定 要 记 住 这 里 涉及 的 只 是 冰山 一 角 。 绝 大 多 数 优化 MySQL/ 
Oracle/SQLite 索引 的 技巧 同样 也 适用 于 MongoDB (包括 “Use the Index， 
Luke” 上 的 教程 http://use-the-index-luke.com ) 。 














为 了 选择 合适 的 键 来 建立 索引 ， 可 以 查看 常用 的 查询 ， 以 及 那些 需要 被 优化 的 查 
询 ， 从 中 找 出 一 组 常用 的 键 。 例 如 ， 在 上 面 的 例子 中 ， 查 询 是 在 "username" 上 
进行 的 。 如 果 这 是 一 个 非常 通用 的 查询 ， 或 者 这 个 查询 造成 了 性 能 瓶颈 ， 那 么 在 
"username" 上 建立 索引 会 是 非常 好 的 选择 。 然 而 ， 如 果 这 只 是 一 个 很 少 用 到 的 查 
询 , 或 者 只 是 给 管理 员 用 的 查询 (管理 员 并 不 需要 太 在 意 查 询 耗 费 的 时 间 )， 那 就 不 
应 该 对 "username" 建立 索引 。 


5.1.1 复合 索引 简介 

索引 的 值 是 按 一 定 顺 序 排列 的 ， 因 此 ， 使 用 索引 键 对 文档 进行 排序 非常 快 。 然 
而 ， 只 有 在 首先 使 用 索引 键 进行 排序 时 ， 索 引 才 有 用 。 例 如 ， 在 下 面 的 排序 里 ， 
"username" 上 的 索引 没什么 作用 : 











> db.users.find().sort({"age" : 1, "username" : 1}) 


这 里 先 根据 "age" 排序 再 根据 "username" 排序 ， 所 以 "username" 在 这 里 发 挥 的 
作用 并 不 大 。 为 了 优化 这 个 排序 ， 可 能 需要 在 "age" 和 "username" 上 建立 索引 : 


> db.users.ensureIndex({"age" : 1, "username" : 1}) 


这 样 就 建立 了 一 个 复合 索引 (compound index)。 如 果 查 询 中 有 多 个 排序 方向 或 者 查 
询 条 件 中 有 多 个 键 ， 这 个 索引 就 会 非常 有 有 用。 复合 索引 就 是 一 个 建立 在 多 个 字段 上 
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的 索引 。 


假如 我 们 有 


自然 顺序 ) 的 查询 : 


如 果 使 


[9, 
[9, 
[9, 
[9, 
[1, 
[1, 
[1, 
[1, 
[2, 
[2, 
[2, 


一 个 索引 条 目 都 包含 一 人 


> 
{ 
{ 
{ 
{ 
{ 
{1 
{ 
{ 
{ 
{ 
{ 


"username" 
"username" 
"username" 
"username" 
"username" 
username" 
"username" 
"username" 
"Username" 
"username" 
"Username" 


用 {"age" 


"User99985" 


"user100309" 
"user100334" 
"user100479" 


"user100156" 
"user100187" 
"user100192" 


"user999920" 
"user100141" 
"user100149" 
"user100223" 


db.users. ngt 0 E" 


| 


1 
Vv 


i 
YYV.Y,Y 





: 0, "i" : 0, "created" 

"userg", ot : 69 } 
"userl", "age" : 50 } 
"user2", "age" : 88 } 
"user3", "age" : 52 } 
"user4", "age" : 74 } 
"user5", "age" : 104 } 
"user6", "age" : 59 } 
"user7", "age" : 102 } 
"user8", "age" : 94 } 
"user9", "age"” : 7} 

"user1l0", "age" : 80 } 


"username"” : 1} 建立 索引 ， 


0x0c965148 
0xf51f818e 
0x00fd7934 


0xd246648f 
0xf78d5bdd 
0x68ab28bd 
Ox5c7fb621 


Ox67ded4b7 
0x3996dd46 
0xfce68412 
0x91106e23 


一 个 users 集合 (如 下 所 示 )， 如 果 在 这 个 集合 上 执行 一 个 不 排序 ( 称 为 


: 0}) 


这 个 索引 大 致 会 是 这 个 样子 : 


个 "age" 字段 和 一 个 "username" 字段 ， 并 且 指 向 文档 


在 磁盘 上 的 存储 位 置 (这 里 使 用 十 六 进 制 数 字 表 示 ， 可 以 忽略 )。 注 意 ， 这 里 的 
"age" 字段 是 严格 升序 排列 的 ，"age" 相同 的 条 目 按照 "username" 升序 排列 。 每 


个 "age" 都 有 大 约 8000 个 对 应 的 "username"， 


达 大 概 的 信息 。 


MongoDB 对 这 个 索引 的 使 用 方式 取决 于 查 


。 db.users.find({"age" 
这 是 一 个 点 查询 (point query ) ， 
多 个 )。 

ge" : 21} 匹配 的 最 后 一 个 索引 开始 ， 


{"a 


这 里 只 是 挑选 了 少量 数据 用 于 传 


询 的 类 型 。 下 面 是 三 种 主要 的 方式 。 


21}).sort({"username" : -1}) 
用 于 查找 单个 值 ( 尽 
由 于 索引 中 的 第 二 个 字段 ， 查 询 结 果 已 经 是 有 序 的 了 : MongoDB 可 以 从 
逆序 依次 遍历 索引 : 


管 包含 这 个 值 的 文档 可 能 
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[21, "user999977"] -> 0x9b3160cf 
[21, "user999954"] -> 0xfe039231 
[21, "user999902"] -> 0x719996aa 


这 种 类 型 的 查询 是 非常 高 效 的 : MongoDB 能 够 直接 定位 到 正确 的 年 龄 ， 而 且 不 需 
要 对 结果 进行 排序 (因为 只 需要 对 数据 进行 逆序 遍历 就 可 以 得 到 正确 的 顺序 了 )。 


注意 ， 排 序 方向 并 不 重要 : MongoDB 可 以 在 任意 方向 上 对 索引 进行 遍历 。 











。 db.users.find({"age" : {"$gte" : 21, "$lte" : 30}}) 
这 是 一 个 多 值 查 询 (multi-value query)， 查 找到 多 个 值 相 匹配 的 文档 〈 在 本 例 
中 ， 年 龄 必须 介 于 21 到 30 之 间 )。MongoDB 会 使 用 索引 中 的 第 一 个 键 "age" 
得 到 匹配 的 文档 ， 如 下 所 示 : 








[21, "user100000"] -> 0x37555a81 
[21, "user100069"] -> 0x6951d16f 
[21, "user1001"] -> QOx9alfSeQc 
[21, "user100253"] -> Oxd54bd959 
[21, "user100409"] -> Ox824fef6c 
[21, "user100469"] -> Ox5fba778b 
[30, "user999775"] -> 0x45182d8c 
[30, "user999850"] -> Ox1ldf279e9 
[30, "user999936"] -> 0x525caa57 





通常 来 说 ， 如 果 MongoDB 使 用 索引 进行 查询 ， 那 么 查询 结果 文档 通常 是 按照 索 
引 顺 序 排列 的 。 





。 db.users.find({"age" : {"$gte" : 21, "$lte" :30}}).sort({"username":1}) 
这 是 一 个 多 值 查询 ， 与 上 一 个 类 似 ， 只 是 这 次 需要 对 查询 结果 进行 排序 。 跟 之 前 
一 样 ，MongoDB 会 使 用 索引 来 匹配 查询 条 件 : 


[21, "user100000"] -> 0x37555a81 
[21, "user100069"] -> 0x6951d16f 
[21, "user1001"] -> 0x9alf5e0c 
[21, "user100253"] -> 0xd54bd959 
[22, "user100004"] -> 0x8le862c5 
[22, "user100328"] -> 0x83376384 
[22, "user100335"] -> 0x55932943 
[22, "user100405"] -> 0x20e7e664 





然而 ， 使 用 这 个 索引 得 到 的 结果 集中 "username" 是 无 序 的 ， 而 查询 要 求 结 果 以 
"username" 升序 排列 ， 所 以 MongoDB 需要 先 在 内 存 中 对 结果 进行 排序 ， 然 后 
才能 返回 。 因 此 ， 这 个 查询 通常 不 如 上 一 个 高 效 。 
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当然 ， 查 询 速度 取决 于 有 多 少 个 文档 与 查 


询 条 件 匹 配 : 如 果 结 果 集 中 只 有 少数 几 


个 文档 ，MongoDB 对 这 些 文档 进行 排序 并 不 需要 耗费 多 少时 间 。 如 果 结 果 集 中 


的 文档 数量 比较 多 ， 
超过 32 MB ，MongoDB 就 会 出 


查询 速度 就 会 比较 慢 





Mon Oct 29 16:25:26 uncaught exception: 


"$err" "too much data for sort() 
specify a smaller limit", 
"code" : 10128 


} 


最 后 一 个 例子 中 ， 


{"username" 


还 可 以 使 用 另 一 个 索 


1, "age" 1}。 Mong 


你 期 
["user0", 69] 
["user1l", 50] 
["user10", 80] 
["user100", 48] 
["user1000", 111] 
["user10000", 98] 
["user100000", 21] -> 0x73f0b48d 
["user100001", 60] 
["user100002", 82] 
["user100003", 27] -> Ox0078f55f 
["user100004", 22] -> 0x5f0d3088 
[ 95] 


"user100005", 























， 甚 至 根本 不 能 用 : 如 果 结 果 集 的 大 小 
洪 ， 拒 绝对 如 此 多 的 数据 进行 排序 : 
error: { 


with no index. add an index or 


引 (同样 的 键 ,但 是 顺序 调换 了 ): 
oDB 会 反 转 所 有 的 索引 条 目 ， 但 是 会 以 





望 的 顺序 返回 。MongoDB 会 根据 索引 中 的 "age" 部 分 挑选 出 匹配 的 文档 : 








这 样 非常 好 ， 因 为 不 需要 在 内 存 中 对 大 量 数 据 进 行 排 序 。 但 是 ，MongoDB 不 得 不 
扫描 整个 索引 以 便 找到 所 有 匹配 的 文档 。 因 此 ， 如 果 对 查询 结果 的 范围 做 了 限制 ， 
那么 MongoDB 在 几 次 匹配 之 后 就 可 以 不 再 扫描 索引 ， 在 这 种 情况 下 ， 将 排序 键 放 
在 第 一 位 是 一 个 非常 好 的 策略 。 
可 以 通过 explain() 来 查看 MongoDB 对 db.users.find({"age" {"$gte" 
21，"$Lte" : 30}}).sort({"username"” :; 1}) 的 默认 行为 : 

> db.users.find({"age" : {"$gte" : 21, "$lte" : 30}}). 


. Sort({"username" 
. explain() 


1) 


"cursor" 


"BtreeCursor age 1 username 1", 
"isMultikKey" : false, 

"n" : 83484, 

"nscannedObjects" : 83484, 

"nscanned" : 83484, 
"nscannedObjectsAllPlans" : 83484, 
"nscannedAllPlans" : 83484, 
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"scanAndOrder" : true, 

"indexOnly" : false, 

"nYields" : 0, 

"nChunkSkips" : 0, 

"millis" : 2766, 

"indexBounds" : { 
"age"” : [ 


"username" : [ 
[ 
{ 


"$minElement" : 1 
名 
€ 


"$maxElement" : 1 


} 


] 
}, 
"server" : "spock:27017" 


} 


可 以 忽略 大 部 分 字段 ， 后 面 会 有 相关 介绍 。 注 意 ，"cursor" 字段 说 明 这 次 查询 使 
用 的 索引 是 {"age"” : 1，"user name" : 1}, 而 且 只 查找 了 不 到 1/10 的 文档 
("nscanned" 只 有 83484) ， 但 是 这 个 查询 耗费 了 差不多 3 秒 的 时 间 ("millis" 字 
段 显 示 的 是 毫秒 数 )。 这 里 的 "scanAnd0rder'" 字段 的 值 是 true: 说 明 MongoDB 
必须 在 内 存 中 对 数据 进行 排序 ， 如 之 前 所 述 。 


可 以 通过 hint 来 强制 MongoDB 使 用 某 个 特定 的 索引 ， 再 次 执行 这 个 查询 ， 但 是 这 
次 使 用 {"username"” : 1，"age" : 1} 作为 索引 。 这 个 查询 扫描 的 文档 比较 多 ， 
但 是 不 需要 在 内 存 中 对 数据 排序 : 


> db.users.find({"age" : {"$gte" : 21, "$lte" : 30}}). 























. Sort({"username" : 1}). 
. hint({"username" : 1, "age" : 1}). 
... explain() 
{ 
"cursor" : "BtreeCursor username 1 age 1", 
"isMultikey" : false, 
"n" :; 83484, 


"nscannedObjects" : 83484, 
"nscanned" : 984434, 
"nscannedObjectsAllPlans" : 83484, 
"nscannedAllPlans" : 984434, 


"scanAndOrder" : false, 
"indexOnly" : false, 
"nYields" : 0, 
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"nChunkSkips" : 0, 
"millis" : 14820, 


"indexBounds" : { 
"username" : [ 
[ 
{ 
"$minElement" : 1 
}, 
{ 
"$maxElement" : 1 
} 
] 
和 
"age"” :|[ 
[ 
21, 
30 
] 
] 
}, 
“server” : “spock:27017” 


} 


注意 ， 这 次 查询 耗费 了 将 近 15 秒 才 完 成 。 对 比 鲜 明 ， 第 一 个 索引 速度 更 快 。 然 而 ， 
如 果 限 制 每 次 查询 的 结果 数量 ， 新 的 赢家 产生 了 : 








> db.users.find({"age" : {"$gte" : 21, "$lte" : 30}}). 
. Sort({"username" : 1}). 
. limit(1000). 
. hint({"age" : 1, "username" : 1}). 
. explain()['millis'] 
2031 
> db.users.find({"age" : {"$gte" : 21, "$lte" : 30}}). 
. Sort({"username" : 1}). 
. limit(1000). 
. hint({"username" : 1, "age" : 1}). 
. explain()['millis'] 
181 


第 一 个 查询 耗费 的 时 间 仍 然 介 于 2 秒 到 3 秒 之 间 ， 但 是 第 二 个 查询 只 用 了 不 到 1/5 


秒 ! 因此 ， 应 该 就 在 应 用 程序 使 用 的 查询 上 执行 expLain() 。 排 除 掉 那 些 可 能 会 导 
臻 expLain() 输出 信息 不 准确 的 选项 。 


在 实际 的 应 用 程序 中 ，{"sortKey" : 1,， "queryCriteria" : 1} 索引 通常 是 
很 有 用 的 ， 因 为 大 多 数 应 用 程序 在 一 次 查询 中 只 需要 得 到 查询 结果 最 前 面 的 少数 结 
果 ， 而 不 是 所 有 可 能 的 结果 。 而 且 ， 由 于 索引 在 内 部 的 组 织 形式 ， 这 种 方式 非常 易 
于 扩展 。 索 引 本 质 上 是 树 ， 最 小 的 值 在 最 左边 的 叶子 上 ， 最 大 的 值 在 最 右边 的 叶 
子 上 。 如 果 有 一 个 日 期 类 型 的 "sortKey"” (或 是 其 他 能 够 随时 间 增 加 的 值 )， 当 从 
左 向 右 遍 历 这 棵 树 时 ， 你 实际 上 也 花费 了 时 间 。 因 此 ， 如 果 应 用 程序 需要 使 用 最 近 
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数据 的 机 会 多 于 较 老 的 数据 ， 那 么 MongoDB 只 需 在 内 存 中 保留 这 棵 树 最 右 侧 的 分 
支 〈 最 近 的 数据 ) ， 而 不 必 将 整 棵 树 留 在 内 存 中 。 类 似 这 样 的 索引 是 右 平衡 的 right 
balanced) ， 应 该 尽 可 能 让 索引 是 右 平 衡 的 。"” id " 索引 就 是 一 个 典型 的 右 平衡 索引 。 


5.1.2 ”使 用 复合 索引 
在 多 个 键 上 建立 的 索引 就 是 复合 索引 ， 在 上 面 的 小 节 中 ， 已 经 使 用 过 复合 索引 。 复 
合 索引 比 单 键 索引 要 复杂 一 些 ， 但 是 也 更 强大 。 本 节 会 更 深入 地 介绍 复合 索引 。 


1. 选择 键 的 方向 

到 目前 为 止 ， 我 们 的 所 有 索引 都 是 升序 的 〈 或 者 是 从 最 小 到 最 大 ) 。 但 是 ， 如 果 需 要 
在 两 个 〈 或 者 更 多 ) 查询 条 件 上 进行 排序 ， 可 能 需要 让 索引 键 的 方向 不 同 。 例 如 ， 
假设 我 们 要 根据 年 龄 从 小 到 大 ， 用 户 名 从 Z 到 A 对 上 面 的 集合 进行 排序 。 对 于 这 个 
问题 ， 之 前 的 索引 变 得 不 再 高 效 : 每 一 个 年 龄 分 组 内 都 是 按照 "username'" 升序 排 
列 的 ， 是 A 到 Z, 不 是 Z 到 A。 对 于 按 "age" 升序 排列 按 "username" 降序 排列 这 
样 的 需求 来 说 ， 用 上 面 的 索引 得 到 的 数据 的 顺序 没什么 用 。 


为 了 在 不 同方 向 上 优化 这 个 复合 排序 ， 需 要 使 用 与 方向 相 匹 配 的 索引 。 在 这 个 例子 
中 ， 可 以 使 用 {"age"” : 1，"username"” : -1}， 它 会 以 下 面 的 方式 组 织 数 据 : 











[21, "user999977"] -> Oxe57bf737 
[21, "user999954"] -> Ox8bffa512 
[21, "user999902"] -> 0x9e1447d1 
[21, "user999900"] -> 0x3a6a8426 
[21, "user999874"] -> 0xc353ee06 


[30, "user999936"] -> 0x7f39a81a 
[30, "user999850"] -> 0xa979e136 
[30, "user999775"] -> 0x5de6b77a 


[30, "user100324"] -> 0xel4f8e4d 
[30, "user100140"] -> 0xof34d446 
[30, "user100050"] -> 0x223c35b1 


年 龄 按照 从 年 轻 到 年 长 顺序 排列 ， 在 每 一 个 年 龄 分 组 中 ， 用 户 名 是 从 Z 到 A 排列 的 
(对 于 我 们 的 用 户 名 来 说 ， 也 可 以 说 是 按照 "9" 到 "0" 排列 的 )。 


如 果 应 用 程序 同时 需要 按照 {"age"” : 1，"username"” : 1} 优化 排序 ， 我们 还 需 
要 创建 一 个 这 个 方向 上 的 索引 。 至 于 索引 使 用 的 方向 ， 与 排序 方向 相同 就 可 以 了 。 
注意 ， 相 互 反 转 (在 每 个 方向 都 乘 以 -1) 的 索引 是 等 价 的 : {"age" : 1， "user 
name" : -1} 适用 的 查询 与 {"age"” : -1，"username" : 1} 是 完全 一 样 的 。 


只 有 基于 多 个 查询 条 件 进 行 排序 时 ， 索 引 方 向 才 是 比较 重要 的 。 如 果 只 是 基于 单一 
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键 进 行 排序 ，MongoDB 可 以 简单 地 从 相反 方向 读 取 索 引 。 例 如 ， 如 果 有 一 个 基于 
{f"age" : -1} 的 排序 和 一 个 基于 {"age" : 1} 的 索引 ，MongoDB 会 在 使 用 索引 
时 进行 优化 ， 就 如 同 存在 一 个 {"age" : -1} 索引 一 样 (所 以 不 要 创建 两 个 这 样 的 
索引 ! )。 只 有 在 基于 多 键 排序 时 ， 方 向 才 变 得 重要 。 


2. 使 用 覆盖 索引 (covered index) 

在 上 面 的 例子 中 ， 查 询 只 是 用 来 查找 正确 的 文档 ， 然 后 按照 指示 获取 实际 的 文档 。 
然后 ， 如 果 你 的 查询 只 需要 查找 索引 中 包含 的 字段 ， 那 就 根本 没 必 要 获取 实际 的 文 
档 。 当 一 个 索引 包含 用 户 请 求 的 所 有 字段 ， 可 以 认为 这 个 索引 尾 盖 了 本 次 查询 。 在 
实际 中 ， 应 该 优先 使 用 覆盖 索引 ， 而 不 是 去 获取 实际 的 文档 。 这 样 可 以 保证 工作 集 
比较 小 ， 尤 其 与 右 平衡 索引 一 起 使 用 时 。 


为 了 确保 查询 只 使 用 索引 就 可 以 完成 ， 应 该 使 用 投射 〈 详 见 4.1.1 闻 ) 来 指定 不 要 
返回 ”id" 字段 (除非 它 是 索引 的 一 部 分 )。 可 能 还 需要 对 不 需要 查询 的 字段 做 索 
引 ， 因 此 需要 在 编写 时 就 在 所 需 的 查询 速度 和 这 种 方式 带 来 的 开销 之 间 做 好 权衡 。 


如 果 在 覆盖 索引 上 执行 explain()，"index0nly" 字段 的 值 要 为 true。 


如 果 在 一 个 含有 数组 的 字段 上 做 索引 ， 这 个 索引 永远 也 无 法 覆盖 查询 (因为 数组 是 
被 保存 在 索引 中 的 ，5.1.4 节 会 深入 介绍 )。 即 便 将 数组 字段 从 需要 返回 的 字段 中 易 
除 ， 这 样 的 索引 仍然 无 法 覆盖 查询 。 


3. 隐 式 索引 

复合 索引 具有 双重 功能 ， 而 且 对 不 同 的 查询 可 以 表现 为 不 同 的 索引 。 如 果 有 一 个 
{"age"” : 1，"username" : 1} 索引 ,，"age" 字段 会 被 自动 排序 ， 就 好 像 有 一 个 
{"age”: 1} 索引 一 样 。 因 此 ， 这 个 复合 索引 可 以 当 作 {"age"” : 1} 索引 一 样 使 用 。 


这 个 可 以 根据 需要 推广 到 尽 可 能 多 的 键 : 如 果 有 一 个 拥有 和 N 个 键 的 索引 ， 那 么 你 同 
时 “免费 ”得 到 了 所 有 这 和 N 个 键 的 前 级 组 成 的 索引 。 举 例 来 说 ， 如 果 有 一 个 {"a": 
1，"b": 1，"c": 1，...，"z": 1} 索引 ， 那么 ,实际 上 我 们 也 可 以 使 用 {"a": 
1}、f{"a": 1,"b"”: 1}、{"a": 1，"b": 1,，"c": 1} 等 一 系列 索引 。 


注意 ， 这 些 键 的 任意 子 集 所 组 成 的 索引 并 不 一 定 可 用 。 例 如 ， 使 用 {"b": 1} 或 者 
{"a": 1，*c": 1} 作为 索引 的 查询 是 不 会 被 优化 的 : 只 有 能 够 使 用 索引 前 绥 的 查 
询 才能 从 中 受益 。 


5.1.3 $$ 操作 符 如 何 使 用 索引 
有 一 些 查 询 完全 无 法 使 用 索引 ， 也 有 一 些 查 询 能 够 比 其 他 查询 更 高 效 地 使 用 索引 。 
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本 市 讲述 MongoDB 对 各 种 不 同 查询 操作 符 的 处 理 。 


1. 低 效率 的 操作 符 
有 一 些 查 询 完 全 无 法 使 用 索引 ， 比 如 "$where" 查询 和 检查 一 个 键 是 否 存 在 的 查询 
({"key"” : {"$exists"” : true}})。 也 有 其 他 一 些 操 作 不 能 高 效 地 使 用 索引 。 


如 果 "x" 上 有 一 个 索引 ， 查 询 那 些 不 包含 "x" 键 的 文档 可 以 使 用 这 样 的 索引 ({"x" 
: {"$exists"” : false}}。 然 而 ,在 索引 中 ,不 存在 的 字段 和 null 字段 的 存储 
方式 是 一 样 的 ， 查 询 必 须 遍历 每 一 个 文档 检查 这 个 值 是 否 真 的 为 nuLL 还 是 根本 不 
存在 。 如 果 使 用 稀 玻 索引 (sparse index)， 就 不 能 使 用 {"$exists" : true}, 也 
不 能 使 用 {"$exists" : false}。 


通常 来 说 ， 取 反 的 效率 是 比较 低 的 。"$ne" 查询 可 以 使 用 索引 ， 但 并 不 是 很 有 效 。 


因为 必须 要 查看 所 有 的 索引 条 目 ， 而 不 只 是 "$ne" 指定 的 条 目 ， 不 得 不 扫描 整个 索 
引 。 例 如 ， 这 样 的 查询 遍历 的 索引 范围 如 下 : 


























> db.example.find({"i" : {"$ne" : 3}}).explain() 
{ 


"cursor" : "BtreeCursor i 1 multi", 
"indexBounds" : { 
vi" : [ 


[ 


"$minElement" : 1 


"$maxElement" : 1 


} 


这 个 查询 查找 了 所 有 小 于 3 和 大 于 3 的 索引 条 目 。 如 果 索 引 中 值 为 3 的 条 目 非 常 多 ， 
那么 这 个 查询 的 效率 是 很 不 错 的 ， 否 则 的 话 ， 这 个 查询 就 不 得 不 检查 几乎 所 有 的 索 


引 条 目 。 

"$not" 有 时 能 够 使 用 索引 ， 但 是 通常 它 并 不 知道 要 如 何 使 用 索引 。 它 能 够 对 基本 
的 范围 (比如 将 {"key"” : {"$lt"” : 7}} 变 成 {"key"” : {"$gte"” : 7}}) 和 
正则 表达 式 进 行 反 转 。 然 而 ， 大 多 数 使 用 "$not" 的 查询 都 会 退化 为 进行 全 表 扫 描 。 
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"$nin" 就 总 是 进行 全 表 扫 描 。 

如 果 需 要 快速 执行 一 个 这 些 类 型 的 查询 ， 可 以 试 着 找到 另 一 个 能 够 使 用 索引 的 语 
句 ， 将 其 添加 到 查询 中 ， 这 样 就 可 以 在 MongoDB 进行 无 索引 匹配 (non-indexed 
matching) 时 先 将 结果 集 的 文档 数量 减 到 一 个 比较 小 的 水 平 。 

假如 我 们 要 找 出 所 有 没有 "birthday" 字段 的 用 户 。 如 果 我 们 知道 从 3 月 20 开始 ， 
程序 会 为 每 一 个 新 用 户 添加 生日 字段 ， 那 么 就 可 以 只 查询 3 月 20 之 前 创建 的 用 户 : 


> db.users.Nnd({"birthday" : {"$exists" : false}, " id" : {"$lt" : march20Id}}) 























这 个 查询 中 的 字段 顺序 无 关 紧 要 ，MongoDB 会 自动 找 出 可 以 使 用 索引 的 字段 ， 而 
无 视 查 询 中 的 字段 顺序 。 


2. 范围 

复合 索引 使 MongoDB 能 够 高 效 地 执行 拥有 多 个 语句 的 查询 。 设 计 基 于 多 个 字段 的 
索引 时 ， 应 该 将 会 用 于 精确 匹配 的 字段 (比如 "x" : "foo") 放 在 索引 的 前 面 ， 将 
用 于 范围 匹配 的 字段 (比如 "y"” : {"$gt"” : 3，"$Lt" : 5}) 放 在 最 后 。 这 样 ， 
查询 就 可 以 先 使 用 第 一 个 索引 键 进行 精确 匹配 ， 然 后 再 使 用 第 二 个 索引 范围 在 这 个 
结果 集 内 部 进行 搜索 。 假 设 要 使 用 {f"age" : 1， "username" : 1} 索引 查询 特定 
年 龄 和 用 户 名 范围 内 的 文档 ， 可 以 精确 指定 索引 边界 值 : 

















> db.users.find({"age" : 47, 


. "UsSername" : {"$gt" : "user5", "$lt" : "user8"}}).explain() 
{ 
"cursor" : "BtreeCursor age 1 username 1", 
"n" : 2788, 
"nscanned" : 2788, 
"indexBounds" : { 
"age" : [ 
[ 
47， 
47 
] 
] ， 
"username" : [ 
[ 
"user5", 
"User8" 
] 
] 
}, 
} 


这 个 查询 会 直接 定位 到 "age" 为 47 的 索引 条 目 ， 然 后 在 其 中 搜索 用 户 名 介 于 
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"user5" 和 "user8" 的 条 目 。 


反 过 来 ,假如 使 用 {"username"” : 1，"age" : 1} 索引 ， 这样 就 改变 了 查询 计划 
(query plan)， 查 询 必 须 先 找到 介 于 "user5" 和 "user8" 之 间 的 所 有 用 户 ， 然 后 再 
从 中 挑选 "age" 等 于 47 的 用 户 。 





> db.users.find({"age" : 47, 


. "USername" : {"$gt" : "user5", "$lt" : "user8"}}).explain() 
{ 
"cursor" : "BtreeCursor username 1 age 1", 
"n" : 2788, 
"nscanned" : 319499, 
"indexBounds" : { 
"username" : [ 
[ 
"user5", 
"user8" 
] 
]， 
"age"”: [ 
[ 
47， 
47 
] 
] 
}, 
"server" : "spock:27017" 
} 


本 次 查询 中 MongoDB 扫描 的 索引 条 目 数量 是 前 一 个 查询 的 10 倍 ! 在 一 次 查询 中 使 
用 两 个 范围 通常 会 导致 低 效 的 查询 计划 。 





3. OR 查询 

写作 本 书 时 ，MongoDB 在 一 次 查询 中 只 能 使 用 一 个 索引 。 如 果 你 在 {"x" : 1} 上 
有 一 个 索引 , 在 {"y"” : 1} 上 也 有 一 个 索引 , 在 {"x"” : 123,"y"” : 456} 上 进 
行 查 询 时 ，MongoDB 会 使 用 其 中 的 一 个 索引 ， 而 不 是 两 个 一 起 用 。"$or" 是 个 例 
外 ，"$or" 可 以 对 每 个 子 句 都 使 用 索引 ， 因 为 "$or" 实际 上 是 执行 两 次 查询 然后 将 
结果 集合 并 。 





> db.foo.find({"$or" : [{"x"” : 123}, {"y" : 456}]}).explain() 


{ 
"clauses"” : [ 
{ 
"cursor" : "BtreeCursor x 1", 
"isMultikKey" : false, 
Ph, 
"nscannedObjects" : 1, 
"nscanned" : 1, 





} 


"nscannedO0bjectsAllPlans" : 1, 
"nscannedAllPlans" : 1， 
"scanAndOrder" : false, 
"indexOnly" : false, 
"nYields" : 0, 
"nChunkSkips" : 0, 
"millis" : 0， 
"indexBounds" : { 
th 
[ 
123, 
123 


} 
}, 
{ 
"cursor" : "BtreeCursor y 1", 
"isMultikKey" : false, 
wh ly 
"nscannedObjects" : 1, 
"nscanned" : 1, 
"nscannedObjectsAllPlans" : 1, 
"nscannedAllPlans" : 1, 
"scanAndOrder" : false, 
"indexOnly" : false, 
"nYields" : 0, 
"nChunkSkips" : 0， 
"millis" :; 0, 
"indexBounds" : { 
"y” :[ 
[ 
456, 
456 
] 
] 
} 
} 
]， 
SN 2 
"nscannedObjects" : 2, 
"nscanned" : 2， 
"nscannedObjectsAllPlans" : 2, 
"nscannedAllPlans" : 2， 
"millis" :; 0, 
"server" : "spock:27017" 


可 以 看 到 ， 这 次 的 explain() 输出 结果 由 两 次 独立 的 查询 组 成 。 通 常 来 说 ,执行 两 


次 查询 再 将 结果 合并 的 效率 不 如 单 次 查询 高 ， 因 


"$or", 








此 ， 应 该 尽 可 能 使 用 "$in" 而 不 是 


如 果 不 得 不 使 用 "$or"， 记 住 ，MongoDB 需要 检查 每 次 查询 的 结果 集 并 且 从 中 移 
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除 重复 的 文档 (有 些 文档 可 能 会 被 多 个 "$or" 子 句 匹配 到 ) 。 


使 用 "$in" 查询 时 无 法 控制 返回 文档 的 顺序 (除非 进行 排序 )。 例 如 ,使 用 {"x”: 
[1，2，3]} 与 使 用 {"x"”: [3，2，1]} 得 到 的 文档 顺序 是 相同 的 。 








5.1.4 索引 对 象 和 数组 

MongoDB 允许 深入 文档 内 部 ， 对 租 套 字段 和 数组 建立 索引 。 髓 套 对 象 和 数组 字段 
可 以 与 复合 索引 中 的 顶级 字段 一 起 使 用 ， 虽然 它们 比较 特殊 ， 但 是 大 多 数 情 况 下 与 
“正常 ”索引 字段 的 行为 是 一 致 的 。 

1. 索引 获 套 文档 

可 以 在 符 套 文档 的 键 上 建立 索引 ， 方 式 与 正常 的 键 一 样 。 如 果 有 这 样 一 个 集合 ， 其 
中 的 第 一 个 文档 表示 一 个 用 户 ， 可 能 需要 使 用 内 套 文档 来 表示 每 个 用 户 的 位 置 ， 





{ 
"username" : "sid", 
"EOC™s 
Wo i se 
"city" : "Springfield", 
"state" : "NY" 
} 
} 





需要 在 "Loc" 的 其 一 个 子 字段 (比如 "loc.city") 上 建立 索引 ， 以 便 提高 这 个 字 
段 的 查询 速度 : 





> db.users.ensureIndex({"loc.city" : 1}) 


可 以 用 这 种 方式 对 任意 深 层次 的 字段 建立 索引 ， 比 如 你 可 以 在 "x.y.z.w.a.b.c" 
上 建立 索引 。 


注意 ， 对 岁 套 文档 本 身 ("loc") 建立 索引 ， 与 对 艇 套 文档 的 某 个 字段 ("loc. 
city") 建立 索引 是 不 同 的 。 对 整个 子 文档 建立 索引 ， 只 会 提高 整个 子 文档 的 查 
询 速 度 。 在 上 面 的 例子 中 ， 只 有 在 进行 与 子 文档 字段 顺序 完全 匹配 的 子 文档 查询 
时 (比如 db.users.find(f"Loc" : {"ip" : "123.456.789.000"， "city" 
: "SheLbyviLLe"，"state"”: "NY"}}}))， 查 询 优 化 器 才 会 使 用 "loc" 上 的 索 
引 。 无 法 对 形 如 db.users.find({"loc.city"” : "Shelbyville"}) 的 查询 使 用 
索引 。 


2. 索引 数组 
也 可 以 对 数组 建立 索引 ， 这 样 就 可 以 高 效 地 搜索 数组 中 的 特定 元 素 。 









































假如 有 一 个 博客 文章 的 集合 ， 其 中 每 个 文档 表示 一 篇 文章 。 每 篇 文章 都 有 一 个 
"comments" 字段 ， 这 是 一 个 数组 ， 其 中 每 个 元 素 都 是 一 个 评论 子 文档 。 如 果 想 要 
找 出 最 近 被 评论 次 数 最 多 的 博客 文章 ， 可 以 在 博客 文章 集合 中 竹 套 的 "comments" 
数组 的 "date" 键 上 建立 索引 : 




















> db.blog.ensureIndex({"comments.date" : 1}) 





对 数组 建立 索引 ， 实 际 上 是 对 数组 的 每 一 个 元 素 建立 一 个 索引 条 目 ， 所 以 如 果 一 篇 
文章 有 20 条 评论 ， 那 么 它 就 拥有 20 个 索引 条 目 。 因 此 数组 索引 的 代价 比 单 值 索引 
高 : 对 于 单 次 插入 、 更 新 或 者 删除 ， 每 一 个 数组 条 目 可 能 都 需要 更 新 (可 能 有 上 千 
个 索引 条 目 )。 





与 上 一 节 中 "loc" 的 例子 不 同 ， 无 法 将 整个 数组 作为 一 个 实体 建立 索引 : 对 数组 建 
立 索 引 ， 实 际 上 是 对 数组 中 的 每 个 元 素 建立 索引 ， 而 不 是 对 数组 本 身 建立 索引 。 


在 数组 上 建立 的 索引 并 不 包含 任何 位 置信 息 : 无 法 使 用 数组 索引 查找 特定 位 置 的 数 
组 元 素 ， 比 如 "comments .4"。 








少数 特殊 情况 下 ， 可 以 对 某 个 特定 的 数组 条 目 进行 索引 ， 比 如 : 
> db.blog.ensureIndex({"comments.10.votes": 1}) 
然而 ， 只 有 在 精确 匹配 第 11 个 数组 元 素 时 这 个 索引 才 有 用 (数组 下 标 从 0 开始 )。 


一 个 索引 中 的 数组 字段 最 多 只 能 有 一 个 。 这 是 为 了 避免 在 多 键 索 引 中 索引 条 目 爆 炸 
性 增长 : 每 一 对 可 能 的 元 素 都 要 被 索引 ， 这 样 导 致 每 个 文档 拥有 nsm 个 索引 条 目 。 
假如 有 一 个 {"x”: 1，"y"”: 1} 上 的 索引 : 


> // Xx 是 一 个 数组 这 是 合法 的 

> db.multi.insert({"x" : [1, 2, 3], "y" : 1}) 
> 
> // y 是 一 个 数组 这 也 是 合法 的 

> db.multi.insert({"x" : 1, "y" : [4, 5, 6]}) 

> 

> // Xx 和 yy 都 是 数组 一 一 这 是 非法 的 ! 

> db.multi.insert({"x" : [1, 2, 3], "y" : [4, 5, 6]}) 
cannot index parallel arrays [y] [x] 





























如 果 MongoDB 要 为 上 面 的 最 后 一 个 例子 创建 索引 ， 它 必须 要 创建 这 么 多 索引 条 目 : 
人 
"y" : 4}、 {"x" 5 "y" : 5}, 7 和 2 "y" : 6}、 {"x" 3 "y" : 4}、 
{"X”: 3,，"y”: 5} 和 {"x”: 3,"y"”:; 6}。 尽 管 这 些 数组 只 有 3 个 元 素 。 
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3. 多 键 索引 

对 于 某 个 素 引 的 键 ， 如 果 这 个 键 在 某 个 文档 中 是 一 个 数组 ， 那 么 这 个 索引 就 会 被 标 
记 为 多 键 索 引 (multikey index)。 可 以 从 explain() 的 输出 中 看 到 一 个 索引 是 否 为 
多 键 索 引 : 如 果 使 用 了 多 键 索 引 ，"isMultikey" 字段 的 值 会 是 true。 索 引 只 要 被 
标记 为 多 键 索 引 ， 就 无 法 再 变 成 非 多 键 索 引 了 ， 即 使 这 个 字段 为 数组 的 所 有 文档 都 
从 集合 中 删除 。 要 将 多 键 索引 恢复 为 非 多 键 索引 ， 唯 一 的 方法 就 是 删除 再 重建 这 个 
索引 。 


多 键 索 引 可 能 会 比 非 多 键 索引 慢 一 些 。 可 能 会 有 多 个 索引 条 目 指向 同一 个 文档 ， 因 
此 MongoDB 在 返回 结果 集 时 必须 要 先 去 除 重复 的 内 容 。 
























































5.1.5 索引 基数 

基数 〈cardinality) 就 是 集合 中 某 个 字段 拥有 不 同 值 的 数量 。 有 一 些 字段 ， 比 如 
"gender'" 或 者 "newstLetter opt-out"， 可 能 只 拥有 两 个 可 能 的 值 ， 这 种 键 的 基 
数 就 是 非常 低 的。 另外 一 些 字段 ， 比 如 "username'" 或 者 "emaiL"， 可 能 集合 中 的 
每 个 文档 都 拥有 一 个 不 同 的 值 ， 这 类 键 的 基数 是 非常 高 的 。 当 然 也 有 一 些 介 于 两 者 
之 间 的 字段 ， 比 如 "age'" 或 者 "zip code"。 


通常 ， 一 个 字段 的 基数 越 高 ， 这 个 键 上 的 索引 就 越 有 用 。 这 是 因为 索引 能 够 迅速 将 
搜索 范围 缩小 到 一 个 比较 小 的 结果 集 。 对 于 低 基 数 的 字段 ， 索 引 通 常 无 法 排除 掉 大 
量 可 能 的 匹配 。 


假设 我 们 在 "gender" 上 有 一 个 索引 ， 需 要 查找 名 为 Susan 的 女性 用 户 。 通 过 这 个 
索引 ， 只 能 将 搜索 空间 缩小 到 大 约 50%， 然 后 要 在 每 个 单独 的 文档 中 查找 "name" 
为 "Susan" 的 用 户 。 反 过 来 ， 如 果 在 "name" 上 建立 索引 ， 就 能 立即 将 结果 集 缩小 
到 名 为 "Susan" 的 用 户 ， 这 样 的 结果 集 非 常 小 ， 然 后 就 可 以 根据 性 别 从 中 迅速 地 找 
到 匹配 的 文档 了 。 


一 般 说 来 ， 应 该 在 基数 比较 高 的 键 上 建立 索引 ， 或 者 至 少 应 该 把 基数 较 高 的 键 放 在 
复合 索引 的 前 面 〈 低 基数 的 键 之 前 ) 。 





























5.2 使 用 explain() 和 hint() 


从 上 面 的 内 容 可 以 看 出 ，explain() 能 够 提供 大 量 与 查询 相关 的 信息 。 对 于 速度 比 
较 慢 的 查询 来 说 ， 这 是 最 重要 的 诊断 工具 之 一 。 通 过 查看 一 个 查询 的 explain() 
输出 信息 ， 可 以 知道 查询 使 用 了 哪个 索引 ， 以 及 是 如 何 使 用 的 。 对 于 任意 查询 ， 都 
可 以 在 最 后 添加 一 个 explain() 调用 (与 调用 sort() 或 者 Limit() 一样 ,不 过 
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explain() 必须 放 在 最 后 ) 。 


最 常见 的 explain() 输出 有 两 种 类 型 : 使 用 


索引 的 查询 和 没有 使 用 索引 的 查询 。 对 


于 特殊 类 型 的 索引 ， 生 成 的 查询 计划 可 能 会 有 些许 不 同 ， 但 是 大 部 分 字段 都 是 相似 


的 。 另 外 ， 分 片 返回 的 是 多 个 explain() 的 
多 个 服务 器 上 执行 。 





聚合 (第 13 章 会 介绍 )， 因 为 查询 会 在 





不 使 用 索引 的 查询 的 exLpain() 是 最 基本 的 explain() 类 型 。 如 果 一 个 查询 不 使 
用 索引 ， 是 因为 它 使 用 了 "BasicCursor" (基本 游标 )。 反 过 来 说 ， 大 部 分 使 用 索 
引 的 查询 使 用 的 是 BtreeCursor ( 某 些 特 殊 类 型 的 索引 ， 比 如 地 理 空 间 索 引 ， 使 用 





的 是 它们 自己 类 型 的 游标 ) 。 





对 于 使 用 了 复合 索引 的 查询 ， 最 简单 情况 下 的 explain() 输出 如 下 所 示 : 


> db.users.find({"age" : 42}).explain() 


{ 
"cursor" : "BtreeCursor age 1 username 1", 
"isMultikKey" : false, 
ne. 332> 
"nscannedObjects" : 8332, 
"nscanned" : 8332, 
"nscannedObjectsAllPlans" : 8332, 
"nscannedAllPlans" : 8332, 
"scanAndOrder" : false, 
"indexOnly" : false, 
"nYields" : 0, 
"nChunkSkips" : 0, 
"millis" : 91, 
"indexBounds" : { 
"age"” :|[ 
[ 
42， 
42 
] 
"username" : [ 
[ 
{ 
"$minElement" : 1 
}, 
{ 
"$maxElement" : 1 
} 
] 
] 
}, 
"server" : "ubuntu:27017" 
} 





从 输出 信息 中 可 以 看 到 它 使 用 的 索引 是 age 1 username 1。"millis" 表 明了 这 
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个 查询 的 执行 速度 ， 时 间 是 从 服务 器 收 到 请 求 开 始 一 直到 发 出 响应 为 止 。 然 而 ， 这 
个 数值 不 一 定 真 的 是 你 希望 看 到 的 值 。 如 果 MongoDB 尝试 了 多 个 查询 计划 ， 那 么 
"millis" 显示 的 是 这 些 查询 计划 花费 的 总 时 间 ， 而 不 是 最 优 查 询 计 划 所 花 的 时 间 。 


























接 下 来 是 实际 返回 的 文档 数量 :"n"。 它 无 法 反映 出 MongoDB 在 执行 这 个 查询 的 过 
程 中 所 做 的 工作 : 搜索 了 多 少 索 引 条 目 和 文档 。 索 引 条 目 是 使 用 "nscanned" 描述 
的 。"nscanned0bjects" 字段 的 值 就 是 所 扫描 的 文档 数量 。 最 后 ， 如 果 要 对 结果 
集 进行 排序 ， 而 MongoDB 无 法 对 排序 使 用 索引 ， 那 么 "scanAnd0rder" 的 值 就 会 
是 true。 也 就 是 说 ，MongoDB 不 得 不 在 内 存 中 对 结果 进行 排序 ， 这 是 非常 慢 的 ， 
而 且 结 果 集 的 数量 要 比较 小 。 


现在 你 已 经 知道 这 些 基础 知识 了 ， 接 下 来 依次 详细 介绍 这 些 字 有 

















Ki 


o 


。 "cursor" : "BtreeCursor age 1 username 1" 
BtreeCursor 表示 本 次 查询 使 用 了 索引 ， 具体 来 说 ， 是 使 用 了 "age" 和 
"username" 上 的 索引 {"age"” : 1，"username" : 1}。 如 果 查 询 要 对 结果 进 
行 逆 序 遍 历 ， 或 者 是 使 用 了 多 键 索 引 ， 就 可 以 在 这 个 字段 中 看 到 "reverse" 和 
"multi" 这 样 的 值 。 








。 "isMultikey" : false 

用 于 说 明 本 次 查询 是 否 使 用 了 多 键 索 引 ( 详 见 5.1.4 市 )。 
。 "n" : 8332 

本 次 查询 返回 的 文档 数量 。 





"nscannedObjects" : 8332 

这 是 MongoDB 按照 索引 指针 去 磁盘 上 查找 实际 文档 的 次 数 。 如 果 查 询 包含 的 查 
询 条 件 不 是 索引 的 一 部 分 ， 或 者 说 要 求 返 回 不 在 索引 内 的 字段 ，MongoDB 就 必 
须 依次 查找 每 个 索引 条 目 指向 的 文档 。 





"nscanned" : 8332 
如 果 有 使 用 索引 ， 那 么 这 个 数字 就 是 查找 过 的 索引 条 目 数量 。 如 果 本 次 查询 是 一 
次 全 表 扫 描 ， 那 么 这 个 数字 就 表示 检查 过 的 文档 数量 。 




















"scanAndOrder" : false 


MongoDB 是 否 在 内 存 中 对 结果 集 进行 了 排序 。 


"indexOnly" : false 
MongoDB 是 否 只 使 用 索引 就 能 完成 此 次 查询 ( 详 见 “ 覆 盖 索 引 ” 部 分 )。 





100 | 第 5 章 


在 本 例 中 ，MongoDB 只 使 用 索引 就 找到 了 全 部 的 匹配 文档 ， 从 "nscanned" 和 
"n" 相等 就 可 以 看 出 来 。 然 而 ， 本 次 查询 要 求 返回 匹配 文档 中 的 所 有 字段 ， 而 
索引 只 包含 "age" 和 "username" 两 个 字段 。 如 果 将 本 次 查询 修改 为 〈{" id 

0，"age" : 1，"username" : 1})， 那么 本 次 查询 就 可 以 被 索引 覆盖 了 ， 
"index0nly" 的 值 就 会 是 true。 








"nYields" : 0 

为 了 让 写 入 请 求 能 够 顺利 执行 ， 本 次 查询 暂停 的 次 数 。 如 果 有 写 入 请 求 需 要 处 
理 ， 查 询 会 周期 性 地 释放 它们 的 锁 ， 以 便 写 和 能够 顺利 执行 。 然 而 ， 在 本 次 查询 
中 ， 没 有 写 人 请 求 ， 因 为 查询 没有 暂停 过 。 











"miLLis”: 91 
数据 库 执行 本 次 查询 所 耗费 的 毫秒 数 。 这 个 数字 越 小 ， 说 明 查 询 效率 越 高 。 





"indexBounds" : {...} 

这 个 字段 描述 了 索引 的 使 用 情况 ， 给 出 了 索引 的 遍历 范围 。 由 于 查询 中 的 第 一 
个 语句 是 精确 匹配 ， 因 此 索引 只 需要 查找 42 这 个 值 就 可 以 了 。 本 次 查询 没有 指 
定 第 二 个 索引 键 ， 因 此 这 个 索引 键 上 没有 限制 ， 数 据 库 会 在 "age" 为 42 的 条 目 
中 将 用 户 名 介 于 负 无 穷 ("$minElement" : 1) 和 正 无 穷 ("$maxElement" 
1) 的 条 目 都 找 出 来 。 














再 来 看 一 个 稍微 复杂 点 的 例子 : 假如 有 一 个 {"user name" : 1，"age" : 1} 上 
的 索引 和 一 个 {"age"” : 1，"username" : 1} 上 的 索引 。 同 时 查询 "username" 
和 "age" 时 ， 会 发 生 什么 情况 ? 咏 ， 这 取决 于 具体 的 查询 : 


> db.c.find({age : {$gt : 10}, username : "sally"}).explain() 


{ 
"cursor" : "BtreeCursor username 1 age 1", 
"indexBounds" : [ 
[ 
{ 
"username" : "sally", 
"age”: 10 
}, 
{ 
"username" : "sally", 
"age" : 1.7976931348623157e+308 
} 
] 
]5 
"nscanned" : 13, 
"nscannedObjects" : 13, 
Wn 7 3 
"millis" : 5 
} 
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由 于 在 要 在 “username" 上 执行 精确 匹配 ， 在 "age" 上 进行 范围 查询 ， 因 此 ， 数 
据 库 选 择 使 用 {"username" : 1，"age" : 1} 索引， 这 与 查询 语句 的 顺序 相 
反 。 另 一 方面 来 说 ， 如 果 需 要 对 "age" 精确 匹配 而 对 "username'" 进行 范围 查询 ， 
MongoDB 就 会 使 用 另 一 个 索引 : 








> db.c.find({"age" : 14, "username" : /.*/}).explain() 


{ 
"cursor" : "BtreeCursor age 1 username 1 multi", 
"indexBounds" : [ 
[ 
{ 
"age" : 14, 
"Username” ; "" 
}, 
{ 
"age" : 14, 
"username" : { 
} 
} 
多 
[ 
{ 
"age" : 14, 
"username” : /.*/ 
}, 
{ 
"age" : 14, 
"username” : /.*/ 
} 
] 
]， 
"nscanned" : 2， 
"nscanned0bjects"”: 2， 
i 
Mt 2 
} 





如 果 发 现 MongoDB 使 用 的 索引 与 自己 希望 它 使 用 的 索引 不 一 致 ， 可 以 使 用 hint() 
强制 MongoDB 使 用 特定 的 索引 。 例 如 ， 如 果 和 希望 MongoDB 在 上 个 例子 的 查询 中 
使 用 {"username"” : 1，"age" : 1} 索引 ， 可 以 这 么 做 : 





> db.c.find({"age" : 14, "username" : /.*/}).hint({"username" : 1, "age" : 1}) 





如 果 查 询 没有 使 用 你 希望 它 使 用 的 索引 ， 于 是 你 使 用 hint 强制 MongoDB 使 用 某 
个 索引 ， 那 么 应 该 在 应 用 程序 部 署 之 前 在 所 指定 的 索引 上 执行 explain()。 如 果 强 
制 MongoDB 在 某 个 查询 上 使 用 索引 ， 而 这 个 查询 不 知道 如 何 使 用 这 个 索引 ， 这 样 
会 导致 查询 效率 降低 ， 还 不 如 不 使 用 索引 来 得 快 。 

















查询 优化 器 

MongoDB 的 查询 优化 器 与 其 他 数据 库 稍 有 不 同 。 基 本 来 说 ， 如 果 一 个 索引 能 够 精 
确 匹 配 一 个 查询 (要 查询 "x" ， 刚 好 在 "x" 上 有 一 个 索引 )， 那 么 查询 优化 器 就 会 
使 用 这 个 索引 。 不 然 的话 ， 可 能 会 有 儿 个 索引 都 适合 你 的 查询 。MongoDB 会 从 这 
些 可 能 的 索引 子 集中 为 每 次 查询 计划 选择 一 个 ， 这 些 查 询 计划 是 并 行 执行 的 。 最 早 
返回 100 个 结果 的 就 是 胜 者 ， 其 他 的 查询 计划 就 会 被 中 止 。 


这 个 查询 计划 会 被 缓存 ， 这 个 查询 接 下 来 都 会 使 用 它 ， 直 到 集合 数据 发 生 了 比较 大 
的 变动 。 如 果 在 最 初 的 计划 评估 之 后 集合 发 生 了 比较 大 的 数据 变动 ， 查 询 优化 器 就 
会 重新 挑选 可 行 的 查询 计划 。 建 立 索 引 时 ,或 者 是 每 执行 1000 次 查询 之 后 ， 查 询 优 
化 器 都 会 重新 评估 查询 计划 。 


explain() 输出 信息 里 的 "allPlans" 字段 显示 了 本 次 查询 尝试 过 的 每 个 查询 计划 。 


5.3” 何 时 不 应 该 使 用 索引 


提取 较 小 的 子 数据 集 时 ， 索 引 非 常 高 效 。 也 有 一 些 查 询 不 使 用 索引 会 更 快 。 结 果 集 
在 原 集 合 中 所 占 的 比例 越 大 ， 索 引 的 速度 就 越 慢 ， 因 为 使 用 索引 需要 进行 两 次 查找 : 
一 次 是 查找 索引 条 目 ， 一 次 是 根据 索引 指针 去 查找 相应 的 文档 。 而 全 表 扫 描 只 需要 
进行 一 次 查找 : 查找 文档 。 在 最 坏 的 情况 下 (返回 集合 内 的 所 有 文档 )， 使 用 索引 进 
行 的 查找 次 数 会 是 全 表 扫 描 的 两 倍 ， 效 率 会 明显 比 全 表 扫 描 低 很 多 。 


可 惜 ， 并 没有 一 个 严格 的 规则 可 以 告诉 我 们 ， 如 何 根据 数据 大 小 、 索 引 大 小 、 文 档 
大 小 以 及 结果 集 的 平均 大 小 来 判断 什么 时 候 索 引 很 有 用 ， 什 么 时 候 索 引 会 降低 查询 
速度 (如 表 5-1 所 示 )。 一 般 来 说 ， 如 果 查 询 需 要 返回 集合 内 30% 的 文档 (或 者 更 
多 )， 那 就 应 该 对 索引 和 全 表 扫 描 的 速度 进行 比较 。 然 而 ， 这 个 数字 可 能 会 在 2% 一 
60% 之 间 变 动 。 


表 5-1 影响 索引 效率 的 属性 

































































索引 通常 适用 的 情况 全 表 扫 描 通常 适用 的 情况 
集合 较 大 集合 较 小 

文档 较 大 文档 较 小 

选择 性 查询 非 选择 性 查询 











假如 我 们 有 一 个 收集 统计 信息 的 分 析 系 统 。 应 用 程序 要 根据 给 定 账 户 去 系统 中 查询 
所 有 文档 ， 根 据 从 初始 一 直到 一 小 时 之 前 的 数据 生成 图 表 : 


> db.entries.find({"created at" : {"$lt" : hourAgo}}) 
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我 们 在 "created at" 上 创建 索引 以 提高 查询 速度 。 


最 初 运行 时 ， 结 果 集 非常 小 ， 可 以 立即 返回 。 几 个 星期 过 去 以 后 ， 数 据 开 始 多 起 来 
了 ， 一 个 月 之 后 ， 这 个 查询 耗费 的 时 间 越 来 越 长 。 


对 于 大 部 分 应 用 程序 来 说 ， 这 很 可 能 就 是 那个 “错误 的 ”查询 : 真 的 需要 在 查询 中 
返回 数据 集中 的 大 部 分 内 容 吗 ? 大 部 分 应 用 程序 〈 尤 其 是 拥有 非常 大 的 数据 集 的 应 
用 程序 ) 都 不 需要 。 然 而 ， 也 有 一 些 合理 的 情况 ， 可 能 需要 得 到 大 部 分 或 者 全 部 的 
数据 也 许 需 要 将 这 些 数据 导出 到 报表 系统 ， 或 者 是 放 在 批量 任务 中 。 在 这 些 情况 
下 ， 应 该 尽 可 能 快 地 返回 数据 集中 的 内 容 。 


可 以 用 {"$natural" : 1} 强制 数据 库 做 全 表 扫 描 。6.1 节 会 介绍 $natural， 它 
可 以 指定 文档 按照 磁盘 上 的 顺序 排列 。 特 别 地 ，$natural 可 以 强制 MongoDB 做 全 
表 扫 描 : 


> db.entries.Nnd({"created at" : {"$lt" : hourAgo}}).hint({"$natural" : 1}) 




















使 用 "$natural" 排序 有 一 个 副作用 : 返回 的 结果 是 按照 磁盘 上 的 顺序 排列 的 。 对 
于 一 个 活跃 的 集合 来 说 ， 这 是 没有 意义 的 : 随 着 文档 体积 的 增加 或 者 缩小 ， 文 档 
会 在 磁盘 上 进行 移动 ， 新 的 文档 会 被 写 入 到 这 些 文档 留 下 的 空白 位 置 。 但 是 ， 对 
于 只 需要 进行 插入 的 工作 来 说 ， 如 果 要 得 到 最 新 的 (或 者 最 早 的) 文档 ， 使 用 
$natural 就 非常 有 用 了 。 


5.4 索引 类 型 


创建 索引 时 可 以 指定 一 些 选项 ， 使 用 不 同 选 项 建立 的 索引 会 有 不 同 的 行为 。 接 下 来 
的 小 节 会 介绍 常见 的 索引 变种 ， 更 高 级 的 索引 类 型 和 特殊 选项 会 在 下 一 章 介绍 。 





























5.4.1 唯一 索引 
唯一 索引 可 以 确保 集合 的 每 一 个 文档 的 指定 键 都 有 唯一 值 。 例 如 ， 如 果 想 保证 同 不 
文档 的 "username" 键 拥 有 不 同 的 值 ， 创 建 一 个 唯一 索引 就 好 了 : 








> db.users.ensureIndex({"username" : 1}, {"unique" : true}) 


如 果 试 图 向 上 面 的 集合 中 插入 如 下 文档 : 





> db.users.insert({username: "bob"}) 
> db.users.insert({username: "bob"}) 
E11000 duplicate key error index: test,users.$username 1 dup key: { : "bob" } 


如 果 检 查 这 个 集合 ， 会 发 现 只 有 第 一 个 "bob" 被 保存 进来 了 。 发 现 有 重复 的 键 时 抛 
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出 异常 会 影响 效率 ， 所 以 可 以 使 用 唯一 索引 来 应 对 偶尔 可 能 会 出 现 的 键 重复 问题 ， 
而 不 是 在 运行 时 对 重复 的 键 进行 过 滤 。 

有 一 个 唯一 索引 可 能 你 已 经 比较 熟悉 了 ， 就 是 "_id" 索引 ， 这 个 索引 会 在 创建 集合 
时 自动 创建 。 这 就 是 一 个 正常 的 唯一 索引 (但 它 不 能 被 删除 ， 而 其 他 唯一 索引 是 可 
以 删除 的 )。 











如 果 一 个 文档 没有 对 应 的 键 ， 索引 会 将 其 作为 nutt 存储 。 所 以 ， 如 果 对 
一 CE 茶 个 键 建立 了 唯一 索引 ,但 插入 了 多 个 缺少 该 索引 键 的 文档 ， 由 于 集合 已 
经 存在 一 个 该 索引 键 的 值 为 nutt 的 文档 而 导致 插入 失败 。5.4.2 闻 会 详细 
介绍 相关 内 容 。 









































有 些 情况 下 ， 一 个 值 可 能 无 法 被 索引 。 索 引 储 桶 (index bucket) 的 大 小 是 有 限制 
的 ， 如 果 某 个 索引 条 目 超出 了 它 的 限制 ， 那 么 这 个 条 目 就 不 会 包含 在 索引 里 。 这 样 
会 造成 一 些 困 惑 ， 因 为 使 用 这 个 索引 进行 查询 时 会 有 一 个 文档 凭空 消失 不 见 了 。 所 
有 的 字段 都 必须 小 于 1024 字 市 ， 才 能 包含 到 索引 里 。 如 果 一 个 文档 的 字段 由 于 太 大 
不 能 包含 在 索引 里 ，MongoDB 不 会 返回 任何 错误 或 者 警告 。 也 就 是 说 ， 超 出 1 KB 
大 小 的 键 不 会 受到 唯一 索引 的 约束 : 可 以 插入 多 个 同样 的 1 KB 长 的 字符 串 。 


1. 复合 唯一 索引 
也 可 以 创建 复合 的 唯一 索引 。 创 建 复合 唯一 索引 时 ， 单 个 键 的 值 可 以 相同 ， 但 所 有 
键 的 组 合 值 必 须 是 唯一 的 。 


例如 ， 如 果 有 一 个 {"username"” : 1， "age" : 1} 上 的 唯一 索引 ， 下 面 的 插入 
是 合法 的 : 








> db.users.insert({"username" : "bob"}) 
> db.users,.insert({"username" : "bob", "age" : 23}) 
> db.users.insert({"username" : "fred", "age" : 23}) 


然而 ， 如 果 试 图 再 次 插入 这 三 个 文档 中 的 任意 一 个 ， 都 会 导致 键 重复 异常 。 
GirdFS 是 MongoDB 中 存储 大 文件 的 标准 方式 ( 详 见 6.5 节 )， 其 中 就 用 到 了 复合 唯 
一 索引 。 存 储 文件 内 容 的 集合 有 一 个 {"files id"”: 1,，"n"” : 1} 上 的 复合 唯一 
索引 ， 因 此 文档 的 某 一 部 分 看 起 来 可 能 会 是 下 面 这 个 样子 : 








{"files id” : ObjectId("4b23c3ca7525f35f94b60a2d"), "n" : 1} 
{"files id” : ObjectId("4b23c3ca7525f35f94b60a2d"), "n" : 2} 
{"files id” : ObjectId("4b23c3ca7525f35f94b60a2d"), "n" : 3} 
{"files id” : ObjectId("4b23c3ca7525f35f94b60a2d"), "n" : 4} 


注意 ， 所 有 "files id" 的 值 都 相同 ， 但 是 "n" 的 值 不 同 。 





2. 去 除 重复 
在 已 有 的 集合 上 创建 唯一 索引 时 可 能 会 失败 ， 因 为 集合 中 可 能 已 经 存在 重复 值 了 : 





> db.users.ensureIndex({"age" : 1}, {"unique" : true}) 
E11000 duplicate key error index: test.users.$age 1 dup key: { : 12 } 


通常 需要 先 对 已 有 的 数据 进行 处 理 〈 可 以 使 用 聚合 框架 )， 找 出 重复 的 数据 ， 想 办 法 
理 。 





六 襄 


呈 





在 极 少 数 情况 下 ， 可 能 希望 直接 删除 重复 的 值 。 创 建 索引 时 使 用 "dropDups'" 选 
项 ， 如 果 遇 到 重复 的 值 ， 第 一 个 会 被 保留 ， 之 后 的 重复 文档 都 会 被 删除 。 


> db.people.ensureIndex({"username" : 1}, {"unique" : true, "dropDups" : true}) 


"dropDups" 会 强制 性 建立 唯一 索引 ， 但 是 这 个 方式 太 粗 暴 了 : 你 无 法 控制 哪些 文 
档 被 保留 哪些 文档 被 删除 (如果 有 文档 被 删除 的 话 ，MongoDB 也 不 会 给 出 提示 说 
哪些 文档 被 删除 了 )。 对 于 比较 重要 的 数据 ， 千 万 不 要 使 用 "dropDups"。 


5.4.2 ” 稀 玻 索引 
前 面 的 小 节 已 经 讲 过 ， 唯 一 索引 会 把 nuLL 看 做 值 ， 所 以 无 法 将 多 个 缺少 唯一 索引 
中 的 键 的 文档 插入 到 集合 中 。 然 而 ， 在 有 些 情况 下 ， 你 可 能 希望 唯一 索引 只 对 包含 





相应 键 的 文档 生效 。 如 果 有 一 个 可 能 存在 也 可 能 不 存在 的 字段 ， 但 是 当 它 存在 时 ， 
它 必 须 是 唯一 的 ， 这 时 就 可 以 将 unique 和 sparse 选项 组 合 在 一 起 使 用 。 








MongoDB 中 的 稀 玻 索引 (sparse index) 与 关系 型 数据 库 中 的 稀 距 索引 是 
心 完全 不 同 的 概念 。 基 本 上 来 说 ，MongoDB 中 的 稀 疏 索引 只 是 不 需要 将 每 
个 文档 都 作为 索引 条 目 。 




















使 用 sparse 选项 就 可 以 创建 稀 玻 索引 。 例 如 ， 如 果 有 一 个 可 选 的 email 地 址 字段 ， 
但 是 ， 如 果 提 供 了 这 个 字段 ， 那 么 它 的 值 必须 是 唯一 的 : 


> db.ensureIndex({"email" : 1}, {"unique" : true, "sparse" : true}) 


稀疏 索引 不 必 是 唯一 的 。 只 要 去 掉 unique 选项 ， 就 可 以 创建 一 个 非 唯 一 的 稀 玻 
索引 。 


根据 是 否 使 用 稀疏 索引 ， 同 一 个 查询 的 返回 结果 可 能 会 不 同 。 假 如 有 这 样 一 个 集合 ， 
其 中 的 大 部 分 文档 都 有 一 个 "x" 字段 ， 但 是 有 些 没有 : 


> db.foo.find() 
{" id" :0} 














Ee je Xe 
Oe fe i 
{ id" :3, "x" :3} 


当 在 "x" 上 执行 查询 时 ， 它 会 返回 相 匹配 的 文档 : 








> nb find({"x" : {"$ne" : 2}}) 
~ :0 
{i or he 
{ ce 
如 果 在 "x" 上 创建 一 个 稀 玻 索引 ，"” id'" 为 0 的 文档 就 不 会 包含 在 索引 中 。 如 果 再 








次 在 "x" 上 查询 ，MongoDB 就 会 使 用 这 个 稀 玻 索 引 ，{"” id" : 0} 的 这 个 文档 就 
不 会 被 返回 了 : 
> db.foo.find({"x" 
{kd XY 1 
i Ko te He i ee; 


如 果 需 要 得 到 那些 不 包含 "x" 字段 的 文档 ， 可 以 使 用 hint() 强制 进行 全 表 扫 描 。 


5.5 索引 管理 


如 前 面 的 小 节 所 述 ， 可 以 使 用 ensuerIndex 函数 创建 新 的 索引 。 对 于 一 个 集合 ， 
每 个 索引 只 需要 创建 一 次 。 如 果 重 复 创 建 相 同 的 索引 ， 是 没有 任何 作用 的 。 


所 有 的 数据 库 索 引信 息 都 存储 在 system.indexes 集合 中 。 这 是 一 个 保留 集合 
能 在 其 中 插入 或 者 删除 文档 。 只 能 通过 ensureIndex 或 者 dropIndexes 


创建 一 个 索引 之 后 ， 就 可 以 在 system.indexes 中 看 到 它 的 元 信息 。 可 以 执行 
db.collectionName .getIndexes() 来 查看 给 定 集合 上 的 所 有 索引 信息 














> db.foo.getIndexes() 


{ 
V3 1, 
key" : { 
wd 1 
}, 
"moa “testeTfoO0.; 
"name" : ”id " 
}, 
{ 
V 并 5 
key" : { 
"yn 1 
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ns" : "test.foo", 
"name™” : "y_1" 
}, 
{ 
Ve dy 
key" : { 
Sy 
"yn 1 
}, 
"nor, tast.Foon, 
"name™” : "x 1y1" 
} 


这 里 面 最 重要 的 字段 是 "key" 和 "name"。 这 里 的 键 可 以 用 在 hint、max、min 以 
及 其 他 所 有 需要 指定 索引 的 地 方 。 在 这 里 ， 索 引 的 顺序 很 重要 : {"x" : 1, "y" : 
1} 上 的 索引 与 {"y"” : 1，"x" : 1} 上 的 索引 不 同 。 对 于 很 多 的 索引 操作 (比如 
dropIndex)， 这 里 的 索引 名 称 都 可 以 被 当 作 标 识 符 使 用 。 但 是 这 里 不 会 指明 索引 是 
否 是 多 键 索引 。 


"Vv" 字段 只 在 内 部 使 用 ， 用 于 标识 索引 版 本 。 如 果 你 的 索引 不 包含 "v"” : 工 这 样 的 
字段 ， 说 明 你 的 索引 是 以 一 种 效率 比较 低 的 旧 方 式 存储 的 。 将 MongoDB 升级 到 至 
少 2.0 版本， 删除 并 重建 这 些 索 引 ， 就 可 以 把 索引 的 存储 方式 升级 到 新 的 格式 了 。 

















5.5.1 标识 索引 

集合 中 的 每 一 个 索引 都 有 一 个 名 称 ， 用 于 唯一 标识 这 个 索引 ， 也 可 以 用 于 服务 器 端 来 
删除 或 者 操作 索引。 索引 名 称 的 默认 形式 是 keynamel _dirl keyname2 dir2 ..._ 
keynameN_dirN， 其 中 keynameX 是 索引 的 键 ，dirX 是 索引 的 方向 (1 或 者 -1)。 
如 果 索 引 中 包含 两 个 以 上 的 键 ， 这 种 命名 方式 就 显得 比较 笨重 了 ， 好 在 可 以 在 
ensureIndex 中 指定 索引 的 名 称 : 





























> db.foo.ensureIndex({"a" : 1, "b" : 1，"c" ;1,..., "z" : 1}, 
... {"name" : "alphabet"}) 


索引 名 称 的 长 度 是 有 限制 的 ， 所 以 新 建 复杂 索引 时 可 能 需要 自 定义 索引 名 称 。 调 用 
getLastError 就 可 以 知道 索引 是 否 成 功 创建 ， 或 者 失败 的 原因 。 











5.5.2 ”修改 索引 
随 着 应 用 不 断 增长 变化 ， 你 会 发 现 数 据 或 者 查询 已 经 发 生 了 改变 ， 原 来 的 索引 也 不 
那么 好 用 了 。 这 时 可 以 使 用 dropIndex 命令 删除 不 再 需要 的 索引 : 
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> db.people.dropIndex("x 1 y 1") 
{ "nIndexesWas" : 3, "ok" : 1 } 


用 索引 描述 信息 里 "name" 字段 的 值 来 指定 需要 删除 的 索引 。 

新 建 索引 是 一 件 既 费时 又 浪费 资源 的 事情 。 默 认 情 况 下 ，MongoDB 会 尽 可 能 快 
地 创建 索引 ， 阻 塞 所 有 对 数据 库 的 读 请 求 和 写 请 求 ， 一 直到 索引 创建 完成 。 如 果 
希望 数据 库 在 创建 索引 的 同时 仍然 能 够 处 理 读 写 请 求 ， 可 以 在 创建 索引 时 指定 
background 选项 。 这 样 在 创建 索引 时 ， 如 果 有 新 的 数据 库 请 求 需要 处 理 ， 创 建 索 
引 的 过 程 就 会 暂停 一 下 ,但 是 仍然 会 对 应 用 程序 性 能 有 比较 大 的 影响 (12.4.8 节 会 
详细 介绍 )。 后 台 创 建 索 引 比 前 台 创 建 索 引 慢 得 多 。 


在 已 有 的 文档 上 创建 索引 会 比 新 创建 索引 再 插入 文档 快 一 点 。 


第 18 章 会 更 详细 地 介绍 实际 创建 索引 。 
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第 6 章 





特殊 的 索引 和 集合 


本 章 介 绍 MongoDB 中 一 些 特殊 的 集合 和 索引 类 型 ， 包 括 : 





。 用 于 类 队列 数据 的 固定 集合 (capped collection ) ; 
。 用 于 缓存 的 TTL 索引 ; 

。 用 于 简单 字符 串 搜 索 的 全 文本 索引 ， 

。 用 于 二 维 平面 和 球体 空间 的 地 理 空 间 索 引 ， 

。 用 于 存储 大 文件 的 GridFS 。 


6.1 固定 集合 


MongoDB 中 的 “普通 ”集合 是 动态 创建 的 ， 而 且 可 以 自动 增长 以 容纳 更 多 的 数据 。 
MongoDB 中 还 有 另 一 种 不 同类 型 的 集合 ， 叫 做 固定 集合 ， 固 定 集合 需要 事先 创建 
好 ， 而 且 它 的 大 小 是 固定 的 (如 图 6-1 所 示 )。 说 到 固定 大 小 的 集合 ， 有 一 个 很 有 趣 
的 问题 : 向 一 个 已 经 满 了 的 固定 集合 中 插入 数据 会 怎么 样 ? 答案 是 ， 固 定 集合 的 行 
为 类 似 于 循环 队列 。 如 果 已 经 没有 空间 了 ， 最 老 的 文档 会 被 删除 以 释放 空间 ， 新 插 








入 的 文档 会 占据 这 块 空间 (如 图 6-2 所 示 )。 也 就 是 说 ， 
再 插入 新 文档 ， 固 定 集 合 会 自动 将 最 老 的 文档 从 集合 中 











当 





固定 集合 被 占 满 时 ， 如 果 





删除 。 
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图 6-1: 新 文档 被 插入 到 队列 末尾 

















图 6-2: 如 果 队列 已 经 被 占 满 ， 那 么 最 老 的 文档 会 被 之 后 插入 的 新 文档 覆盖 

固定 集合 的 访问 模式 与 MongoDB 中 的 大 部 分 集合 不 同 : 数据 被 顺序 写 入 磁盘 上 的 
固定 空间 。 因 此 它们 在 碟 式 磁盘 (spinning disk) 上 的 写 入 速度 非常 快 ， 尤 其 是 集合 
拥有 专用 磁盘 时 (这样 就 不 会 因为 其 他 集合 的 一 些 随机 性 的 写 操 作 而 “中 断 ”)。 
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赚 六 
1 


4 」 。 固定 集合 不 能 被 分 片 。 
9 


固定 集合 可 以 用 于 记录 日 志 ， 尽管 它 们 不 够 灵活 。 虽 然 可 以 在 创建 时 指定 集合 大 小 ， 
晶 无 法 控制 什么 时 候 数 据 会 被 覆盖 。 


6.1.1 创建 固定 集合 
不 同 于 普通 集合 ， 固 定 集合 必须 在 使 用 之 前 先 显 式 创建 。 可 以 使 用 create 命令 创 
建 固定 集合 。 在 shell 中 ， 可 以 使 用 createCollection 函数 : 


> db.createCollection("my collection", {"capped" : true, "size" : 100000}); 
{ "ok" : true } 


上 面 的 命令 创建 了 一 个 名 为 my_collection 大 小 为 100 000 字 节 的 固定 集合 。 


除了 大 小 ，createCollection 还 能 够 指定 固定 集合 中 文档 的 数量 : 
> db.createCollection("my collection2", 


... {"capped" : true, "size" : 100000, "max" : 100}); 
{ "ok" : true } 


可 以 使 用 这 种 方式 来 保存 最 新 的 10 则 新 闻 ， 或 者 是 将 每 个 用 户 的 文档 数量 限制 为 1000。 


国定 集合 创建 之 后 ， 就 不 能 改变 了 〈 如 果 需 要 修改 固定 集合 的 属性 ， 只 能 将 它 删 除 
之 后 再 重建 )。 因 此 ， 在 创建 大 的 固定 集合 之 前 应 该 仔细 想 清 楚 它 的 大 小 。 












































3 





为 固定 集合 指定 文档 数量 限制 时 ， 必 须 同时 指定 国定 集合 的 大 小 。 不 管 先 达 
到 哪 一 个 限制 ， 之 后 插入 的 新 文档 就 会 把 最 老 的 文档 挤 出 集合 : 固定 集合 的 
文档 数量 不 能 超过 文档 数量 限制 ， 固 定 集合 的 大 小 也 不 能 超过 大 小 限制 。 
































创建 固定 集合 时 还 有 另 一 个 选项 ， 可 以 将 已 有 的 某 个 常规 集合 转换 为 固定 集合 ， 可 
以 使 用 convertToCapped 命令 实现 。 下 面 的 例子 将 test 集合 转换 为 一 个 大 小 为 
10 000 字 节 的 固定 集合 : 





> db.runCommand({"convertToCapped" : "test"，" Size"”: 10000}); 
{ "ok" : true } 


无 法 将 固定 集合 转换 为 非 固定 集合 (只 能 将 其 删除 )。 


6.1.2 自然 排序 


对 固定 集合 可 以 进行 一 种 特殊 的 排序 ， 称 为 自然 排序 (natural sort)。 自 然 排序 返回 
结果 集中 文档 的 顺序 就 是 文档 在 磁盘 上 的 顺序 (如 图 6-3 所 示 )。 
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图 6-3: 使 用 {"$naturat" : 1} 进行 排序 


对 大 多 数 集合 来 说 ， 自 然 排序 的 意义 不 大 ， 因 为 文档 的 位 置 经 常 变动 。 但 是 ， 国 定 
集合 中 的 文档 是 按照 文档 被 插入 的 顺序 保存 的 ， 自 然 顺序 就 是 文档 的 插入 顺序 。 因 
此 ， 自 然 排 序 得 到 的 文档 是 从 旧 到 新 排列 的 。 当 然 也 可 以 按照 从 新 到 旧 的 顺序 排列 
(如 图 6-4 所 示 )。 


> db.my collection.find().sort({"$natural" : -1}) 














图 6-4: 使 用 {"$natural"” :; -1} 进行 排序 
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6.1.3 循环 游标 

循环 游标 (tailable cursor) 是 一 种 特殊 的 游标 ， 当 循环 游标 的 结果 集 被 取 光 后 ， 游 
标 不 会 被 关闭 。 循 环 游 标的 灵感 来 自 taiL -f 命令 (循环 游标 跟 这 个 命令 有 点 儿 相 
似 )， 会 尽 可 能 和 久 地 持续 提取 输出 结果 。 由 于 循环 游标 在 结果 集 取 光 之 后 不 会 被 关 
闭 ， 因 此 ， 当 有 新 文档 插入 到 集合 中 时 ， 循 环 游标 会 继续 取 到 结果 。 由 于 普通 集合 
并 不 维护 文档 的 插入 顺序 ， 所 以 循环 游标 只 能 用 在 固定 集合 上 。 


循环 游标 通常 用 于 当 文 档 被 插入 到 “工作 队列 ”( 其 实 就 是 个 固定 集合 ) 时 对 新 插入 
的 文档 进行 处 理 。 如 果 超 过 10 分钟 没 有 新 的 结果 ， 循 环 游标 就 会 被 释放 ， 因 此 ， 当 
游标 被 关闭 时 自动 重新 执行 查询 是 非常 重要 的 。 下 面 是 一 个 在 PHP 中 使 用 循环 游标 
的 例子 (不 能 在 mongo shell 中 使 用 循环 游标 ) : 














$cursor = $collection->find()->tailable(); 


while (true) { 
if (!$cursor->hasNext()) { 
if ($cursor->dead()) { 
break; 


} 
sleep(1); 


else { 
while ($cursor->hasNext()) { 
do stuff($cursor->getNext()); 
} 
} 
} 


这 个 游标 会 不 断 对 查询 结果 进行 处 理 ， 或 者 是 等 待 新 的 查询 结果 ， 直 到 游标 被 关闭 
(超过 10 分 钟 没 有 新 的 结果 或 者 人 为 中 止 查 询 操 作 )。 


6.1.4 没有 id 索引 的 集合 

默认 情况 下 ， 每 个 集合 都 有 一 个 "” id" 索引。 但是， 如 果 在 调用 createCollection 
创建 集合 时 指定 autoIndexId 选项 为 faLse， 创 建 集 合 时 就 不 会 自动 在 "id" 上 
创建 素 引 。 实 践 中 不 建议 这 么 使 用 ， 但 是 对 于 只 有 插入 操作 的 集合 来 说 ， 这 确实 可 
以 带 来 速度 的 稍 许 提升 。 

















如 果 创 建 了 一 个 没有 "id" 索引 的 集合 ， 那 就 永远 都 不 能 复制 它 所 在 的 
CS》 mongod 了 。 复制 操作 要 求 每 个 集合 上 都 要 有 "id" 索引 (对 于 复制 操作 ， 
能 够 唯一 标识 集合 中 的 每 一 个 文档 是 非常 重要 的 ) 。 
































在 2.2 版 本 之 前 ， 固 定 集合 默认 是 没有 "id" 索引 的 ， 除 非 显 式 地 将 autoIndexId 
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置 为 true。 如 果 正 在 使 用 旧版 的 固定 集合 ， 要 确保 你 的 应 用 程序 能 够 填充 " id" 
字段 (大 多 数 驱 动 程序 会 自动 填充 "” id" 字段 )， 然 后 使 用 ensureIndex 命令 创建 
"id" 索引 。 


记 住 ,，"_id" 索引 必须 是 唯一 索引 。 不 同 于 其 他 索引 ，"_id" 索引 一 经 创建 就 无 法 
删除 了 ， 因 此 在 生产 环境 中 创建 索引 之 前 先 自己 实践 一 下 是 非常 重要 的 。 所 以 创建 
"id" 索引 必须 一 次 成 功 ! 如 果 创 建 的 "id" 索引 不 合 规 范 ， 就 只 能 删除 集合 再 重 
建 了 。 























6.2 TTL 索 引 


上 一 市 已 经 讲 过 ， 对 于 固定 集合 中 的 内 容 何 时 被 覆盖 ， 你 只 拥有 非常 有 限 的 控制 
权限 。 如 果 需 要 更 加 灵活 的 老化 移出 系统 (age-out system)， 可 以 使 用 TTL 索引 
(time-to-live index， 具 有 生命 周期 的 索引 )， 这 种 索引 允许 为 每 一 个 文档 设置 一 个 超 
时 时 间 。 一 个 文档 到 达 预 设置 的 老化 程度 之 后 就 会 被 删除 。 这 种 类 型 的 索引 对 于 组 
存 问 题 (比如 会 话 的 保存 ) 非常 有 用 。 





在 ensureIndex 中 指定 expireAfterSecs 选项 就 可 以 创建 一 个 TTL 索引 : 


> // 超时 时 间 为 24 小 时 

> db.foo.ensureIndex({"lastUpdated" : 1}, {"expireAfterSecs" : 60*60*24}) 
这 样 就 在 "lastUpdated" 字段 上 建立 了 一 个 TIL 索引 。 如 果 一 个 文档 的 
"LastUpdated" 字段 存在 并 且 它 的 值 是 日 期 类 型 ， 当 服务 器 时 间 比 文档 的 
"LastUpdated" 字段 的 时 间 晚 expireAfterSecs 秒 时 ， 文 档 就 会 被 删除 。 
为 了 防止 活跃 的 会 话 被 删除 ， 可 以 在 会 话 上 有 活动 发 生 时 将 "LastUpdated'" 字段 
的 值 更 新 为 当前 上 时间。 只 要 "lastUpdated" 的 时 间距 离 当 前 时 间 达 到 24 小 时 ， 相 
应 的 文档 就 会 被 删除 。 


MongoDB 每 分 钟 对 TTL 索引 进行 一 次 清理 ， 所 以 不 应 该 依赖 以 秒 为 单位 的 时 间 保 
证 索引 的 存活 状态 。 可 以 使 用 coLLMod 命令 修改 expireAfterSecs 的 值 : 











> db.runCommand({"collMod" : "someapp.cache", "expireAfterSecs" : 3600}) 


在 一 个 给 定 的 集合 上 可 以 有 多 个 TTL 索引 。TTL 索引 不 能 是 复合 索引 ， 但 是 可 以 像 
“普通 ”索引 一 样 用 来 优化 排序 和 查询 。 


6.3 全 文本 索引 


MongoDB 有 一 个 特殊 类 型 的 索引 用 于 在 文档 中 搜索 文本 。 前 面 几 章 都 是 使 用 精确 
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匹配 和 正则 表达 式 来 查询 字符 串 ， 但 是 这 些 技术 有 一 些 限 制 。 使 用 正则 表达 式 搜索 
大 块 文本 的 速度 非常 慢 ， 而 且 无 法 处 理 语言 的 理解 问题 (比如 entry 与 entries 应 该 
算是 匹配 的 ) 。 使 用 全 文本 索引 可 以 非常 快 地 进行 文本 搜索 ， 就 如 同 内置 了 多 种 语言 
分 词 机 制 的 支持 一 样 。 


创建 任何 一 种 索引 的 开销 都 比较 大 ， 而 创建 全 文本 索引 的 成 本 更 高 。 在 一 个 操作 频 
繁 的 集合 上 创建 全 文本 索引 可 能 会 导致 MongoDB 过 载 ， 所 以 应 该 是 离线 状态 下 创 
建 全 文本 索引 ， 或 者 是 在 对 性 能 没 要 求 时 。 创 建 全 文本 索引 时 要 特别 小 心 谨慎 ， 内 
存 可 能 会 不 够 用 (除非 你 有 SSD)。 第 18 章 会 介绍 如 何在 创建 索引 时 将 对 应 用 程序 
的 影响 降 至 最 低 。 


全 文本 索引 也 会 导致 比 “ 普 通 ” 索 引 更 严重 的 性 能 问题 ， 因 为 所 有 字符 串 都 需要 被 
分 解 、 分 词 ， 并 且 保 存 到 一 些 地 方 。 因 此 ， 可 能 会 发 现 拥有 全 文本 索引 的 集合 的 写 
入 性 能 比 其 他 集合 要 差 。 全 文本 索引 也 会 降低 分 片 时 的 数据 迁移 速度 ， 将 数据 迁移 
到 其 他 分 片 时 ， 所 有 文本 都 需要 重新 进行 索引 。 


写作 本 书 时 ， 全 文本 索引 仍然 只 是 一 个 处 于 “试验 阶段 ”的 功能 ， 所 以 需要 专门 启 
用 这 个 功能 才能 进行 使 用 。 启 动 MongoDB 时 指定 --setParameter textSearch 
Enabled=true 选项 ， 或 者 在 运行 时 执行 setParameter 命令 ， 都 可 以 启用 全 文本 
索引 : 






































> db.adminCommand({"setParameter" : 1, "textSearchEnabled" : true}) 


假如 我 们 使 用 这 个 非 官 方 的 Hacker News JSON API (http://api.ihackernews.com) 
将 最 近 的 一 些 文章 加 载 到 了 MongoDB 中 。 


为 了 进行 文本 搜索 ， 首 先 需 要 创建 一 个 "text" 索引 : 
> db.hn.ensureIndex({"title" : "text"}) 


现在 ， 必 须 通过 text 命令 才能 使 用 这 个 索引 (写作 本 书 时 ， 全 文本 索引 还 不 能 用 
在 “普通 ”查询 中 ) : 





test> db.runCommand({"text" : "hn", "search" : "ask hn"}) 
{ 
"queryDebugString" : "ask|hn||||||", 
"language" : "english", 
"results" : [ 
{ 
"score" : 2.25, 
"obj" : { 
" id" : ObjectId("50dcab296803fa7e4f000011")， 
"title" : "Ask HN: Most valuable skills you have?", 
"url" : "/comments/4974230", 
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"id" : 4974230, 


"commentCount" : 37, 
"points" : 31, 
"postedAgo" : "2 hours ago"， 
"postedBy" : "bavidar" 
} 
}, 
{ 
"score" : 0.5625, 
"Obj" #3 € 
"_ id" :; 0bjectId("50dcab296803fa7e4f000001" ) ， 
"title" : "Show HN: How I turned an old book...", 
"Url" : "http://www.howacarworks.com/about", 
"id" : 4974055, 
"commentCount" : 44, 
"points" : 95, 
"postedAgo" : "2 hours ago"， 
"postedBy" : "AlexMuir" 
} 
}, 
{ 
"score" : 0.5555555555555556, 
”0D]" 3 
"_ id" :; 0bjectId("50dcab296803fa7e4f000010" ) ， 
"title" : "Show HN: ShotBLocker - i0S Screenshot detector...", 
"url" : "https://github.com/clayallsopp/ShotBlocker", 
"id" : 4973909, 
"commentCount" : 10, 
“poLntery 7 
"postedAgo" : "3 hours ago", 
"postedBy" : "10char" 
} 
} 
| 
"stats" : { 
"nscanned" : 4， 
"nscannedObjects" : 0， 
二 
"timeMicros" : 89 
}, 
"ok" :1 


} 


匹配 到 的 文档 是 按照 相关 性 降序 排列 的 : "Ask HN" 位 于 第 一 位 ， 然 后 是 两 个 部 分 
匹配 的 文档 。 每 个 对 象 前 面 的 "score" 字段 描述 了 每 个 结果 与 查询 的 匹配 程度 。 


如 你 所 见 ， 这 个 搜索 是 不 区 分 大 小 写 不 





的 ,至少 对 于 [a-zA-Z] 这 些 字 符 是 这 


样 。 全 文本 索引 会 使 用 toLower 将 单词 变 为 小 写 ， 但 这 是 与 本 地 化 相关 的 ， 所 以 
茶 些 语言 的 用 户 可 能 会 发 现 MongoDB 会 不 可 预测 性 地 变 得 区 分 大 小 写 ， 这 取决 于 
toLower 在 不 同 字符 集 上 的 行为 。MongoDB 一 直 在 努力 提高 对 不 同 字 符 集 的 支持 。 








全 文本 索引 只 会 对 字符 串 数 据 进行 索引 : 世 


鞭 他 的 数据 类 型 会 被 忽略 ， 不 会 包含 在 索 
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引 中 。 一 个 集合 上 最 多 只 能 有 一 个 全 文本 索引 ， 但 是 全 文本 索引 可 以 包含 多 个 字段 : 





> db.blobs.ensureIndex({"title" : "text", "desc" : "text", "author" : "text"}) 


与 “普通 ”的 多 键 索引 不 同 ， 全 文本 索引 中 的 字段 顺序 不 重要 : 每 个 字段 都 被 同等 
对 待 。 可 以 为 每 个 字段 指定 不 同 的 权重 来 控制 不 同 字段 的 相对 重要 性 : 











> db.hn.ensureIndex({"title" : "text", "desc" : "text", "author" : "text"}, 

... {"weights" : {"title" : 3, "author" : 2}}) 
默认 的 权重 是 1， 权 重 的 范围 可 以 是 1~1 000 000 000。 使 用 上 面 的 代码 设置 权重 之 
后 ，"title" 字段 成 为 其 中 最 重要 的 字段 ，"author'" 其 次 ， 最 后 是 "desc" (没有 
指定 ， 因 此 它 的 权重 是 默认 值 1)。 


索引 一 经 创建 ， 就 不 能 改变 字段 的 权重 了 (除非 删除 索引 再 重建 )， 所 以 在 生产 环境 
中 创建 索引 之 前 应 该 先 在 测试 数据 集 上 实际 操作 一 下 。 

对 于 某 些 集合 ， 我 们 可 能 并 不 知道 每 个 文档 所 包含 的 字段 。 可 以 使 用 "$**" 在 文档 
的 所 有 字符 串 字 段 上 创建 全 文本 索引 : 这 不 仅 会 对 顶级 的 字符 串 字 段 建立 索引 ， 也 
会 搜索 嵌 套 文档 和 数组 中 的 字符 串 字 段 : 


> db.blobs.ensureIndex({"$**" : "text"}) 








也 可 以 为 "$**" 设置 权重 : 


> db.hn.ensureIndex({"whatever" : "text"}, 
... {"weights" : {"title" : 3, "author" : 1, "$**" :; 2}}) 


"whatever" 可 以 指 代 任 何 东 西 。 在 设置 权重 时 指明 了 是 对 所 有 字段 进行 索引 ， 
此 MongoDB 并 不 要 求 你 明确 给 出 字段 列表 。 


6.3.1 搜索 语法 

默认 情况 下 ，MongoDB 会 使 用 OR 连接 查询 中 的 每 个 词 :“ask OR hn”。 这 是 执行 
全 文本 查询 最 有 效 的 方式 ， 但 是 也 可 以 进行 短语 的 精确 匹配 ， 以 及 使 用 NOT。 为 了 
精确 查询 “ask hn” 这 个 短语 ， 可 以 用 双 引 号 将 查询 内 容 括 起 来 : 


> db.runCommand({text: "hn", search: "\"ask hn\""}) 


{ 
"queryDebugString" : "ask|lhn|||llask hn||", 
"language" : "english", 
"results" : [ 
和 


"” id” : 0bjectId("50dcab296803fa7e4f000011" )， 
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"title" : "Ask HN: Most valuable skills you have?", 


"url" : "/comments/4974230", 
"id" : 4974230, 
"commentCount" : 37, 
"DOLnte 31 
"postedAgo" : "2 hours ago"， 
"postedBy" : "bavidar" 
} 
} 
]， 
"stats" : { 
"nscanned" : 4, 
"nscannedObjects" : 0， 
We 
"nfound" : 1, 
"timeMicros" : 20392 
}, 
KE 


} 





这 比 使 用 OR 的 匹配 慢 一 些 ， 因 为 MongoDB 首先 要 执行 一 个 OR 匹配 ， 然 后 再 对 
匹配 结果 进行 AND 匹配 。 





可 以 将 查询 字符 串 的 一 部 分 指定 为 字面 量 匹 配 ， 男 一 部 分 仍然 是 普通 匹配 : 
> db.runCommand({text: "hn", search: "\"ask hn\" ipod"}) 

这 会 精确 搜索 "ask hn" 这 个 短语 ， 也 会 可 选 地 搜索 "ipod"。 

也 可 以 使 用 "-" 字符 指定 特定 的 词 不 要 出 现在 搜索 结果 中 


> db.runCommand({text: "hn", search: "-startup vc"}) 














这 样 就 会 返回 匹配 “ve” 但 是 不 包含 “startup” 这 个 词 的 文档 。 


6.3.2 ”优化 全 文本 搜索 


有 几 种 方式 可 以 优化 全 文本 搜索 。 如 果 能 人 够 使 用 某 些 查询 条 件 将 搜索 结果 的 范围 变 
小 ， 可 以 创建 一 个 由 其 他 查询 条 件 前 级 和 全 文本 字段 组 成 的 复合 索引 : 























> db.blog.ensureIndex({"date" : 1, "post" : "text"}) 


这 就 是 局 部 的 全 文本 索引 ，MongoDB 会 基于 上 面 例子 中 的 "date" 先 将 搜索 范围 分 
散 为 多 个 比较 小 的 树 。 这 样 ， 对 于 特定 日 期 的 文档 进行 全 文本 查询 就 会 快 很 多 了 。 


也 可 以 使 用 其 他 查询 条 件 后 级， 使 索引 能 够 覆盖 查询 。 例 如 ， 如 果 要 返回 
"author" 和 "post" 字段 ， 可 以 基于 这 两 个 字段 创建 一 个 复合 索引 : 














> db.blog.ensureIndex({"post" : "text", "author" : 1}) 





前 级 和 后 级 形式 也 可 以 组 合 在 一 起 使 用 : 
> db.blog.ensureIndex({"date" : 1, "post" : "text", "author" : 1}) 
这 里 的 前 级 索引 字段 和 后 级 索引 字段 都 不 可 以 是 多 键 字段 。 


创建 全 文本 索引 会 自动 在 集合 上 启用 usePower0f2Sizes 选项 ， 这 个 选项 可 以 控制 
空间 的 分 配方 式 。 这 个 选项 能 够 提高 写 入 速度 ， 所 以 不 要 禁用 它 。 


6.3.3 在 其 他 语言 中 搜索 


当 一 个 文档 被 插入 之 后 (或 者 索引 第 一 次 被 创建 之 后 )，MongoDB 会 查找 索引 字 
段 ， 对 字符 串 进 行 分 词 ， 将 其 减 小 为 一 个 基本 单元 (essential unit)。 然 后 ， 不 同 语 
言 的 分 词 机 制 是 不 同 的 ， 所 以 必须 指定 索引 或 者 文档 使 用 的 语言 。 文 本 类 型 的 索引 
允许 指定 "default language" 选项 ， 它 的 默认 值 是 "english"， 可 以 被 设置 为 
多 种 其 他 语言 (MongoDB 的 在 线 文档 提供 了 最 新 的 支持 语言 列表 )。 


例如 ， 要 创建 一 个 法 语 的 索引 ， 可 以 这 么 做 : 














> db.users.ensureIndex({"profil" : "text", "intéréts" : "text"}, 
... {"default language" : "french"}) 





这 样 ， 这 个 索引 就 会 默认 使 用 法 语 的 分 词 机 制 ， 除 非 指定 了 其 他 的 分 词 机 制 。 如 
果 在 插入 文档 时 指定 "Language" 字段 ， 就 可 以 为 每 个 文档 分 别 指定 分 词 时 使 用 的 


;五 二 
语言 : 

















> db.users.insert({"username" : "swedishChef", 
. "profile" : "Bork de bork", language : "swedish"}) 


6.4 ”地 理 空间 索引 


MongoDB 支持 儿 种 类 型 的 地 理 空间 索引 。 其 中 最 常用 的 是 2dsphere 索引 (用 于 地 
球 表面 类 型 的 地 图 ) 和 2d 索引 (用 于 平面 地 图 和 时 间 连 续 的 数据 )。 








2dsphere 允许 使 用 GeoJSON 格式 (http://www.geojson.org) 指定 点 、 线 和 多 边 
形 。 点 可 以 用 形 如 [Longitude， latitude] ([ 经度 ， 纬 度 ]) 的 两 个 元 素 的 数组 
表示 : 


{ 
"name" : "New York City", 
"To Ye-{ 
"type" : "Point", 
"coordinates" : [50, 2] 
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} 
线 可 以 用 一 个 由 点 组 成 的 数组 来 表示 : 
{ 
"name" : "Hudson River", 
BOGE “A 
"type" : "Line", 
"coordinates" : [[0,1], [0,2], [1,2]] 
} 
3 
多 边 形 的 表示 方式 与 线 一 样 (都 是 一 个 由 点 组 成 的 数组 )， 但 是 "type" 不 同 : 
{ 
"name" : "New England", 
EEC 
"type" : "Polygon", 
"coordinates" : [[0,1], [0,2], [1,2]] 
} 
} 


"Loc" 字段 的 名 字 可 以 是 任意 的 ， 但 是 其 中 的 子 对 象 是 由 GeoJSON 指定 的 ， 不 能 
改变 。 
在 ensureIndex 中 使 用 "2dsphere" 选项 就 可 以 创建 一 个 地 理 空间 索引 : 


> db.world.ensureIndex({"loc" : "2dsphere"}) 


6.4.1 地 理 空间 查询 的 类 型 

可 以 使 用 多 种 不 同类 型 的 地 理 空间 查询 : 交集 (intersection) 、 包 含 (within) 以 及 
接近 (nearness)。 查 询 时 ， 需 要 将 希望 查找 的 内 容 指 定 为 形 如 {"$geometry" 
geoJsonDesc} 的 GeoJSON 对 象 。 





例如 ， 可 以 使 用 "$geoIntersects" 操作 符 找 出 与 查询 位 置 相交 的 文档 


> var eastVillage = { 

. "type" : "Polygon", 

. "Coordinates" : [ 
-73.9917900，40.7264100] ， 
-73.9917900，40.7321400] ， 
-73.9829300，40.7321400] ， 
-73.9829300，40.7264100] 


wk 
> db.open.street.map.find( 
... {"loc" : {"$geoIntersects" : {"$geometry" : eastVillage}}}) 


这 样 就 会 找到 所 有 与 East Village 区 域 有 交集 的 文档 。 
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可 以 使 用 "$within" 查询 完全 包含 在 某 个 区 域 的 文档 ， 例 如 ;“East Village 有 哪些 
餐馆 ? ” 


> db.open.street.map.Nnd({"loc" : {"$within" : {"$geometry" : eastVillage}}}) 





与 第 一 个 查询 不 同 ， 这 次 不 会 返回 那些 只 是 经 过 East Village (比如 街道 ) 或 者 部 分 
重叠 (比如 用 于 表示 曼哈顿 的 多 边 形 ) 的 文档 。 


最 后 ， 可 以 使 用 "$near" 查询 附近 的 位 置 : 


> db.open.street.map.Nnd({"loc" : {"$near" : {"$geometry" : eastVillage}}}) 























注意 ，"$near" 是 唯一 一 个 会 对 查询 结果 进行 自动 排序 的 地 理 空间 操作 符 : 
"$near" 的 返回 结果 是 按照 距离 由 近 及 远 排序 的 。 


地 理 位 置 查询 有 一 点 非常 有 趣 : 不 需要 地 理 空间 索引 就 可 以 使 用 "$geoIntersects" 
或 者 "$within" ("$near" 需要 使 用 索引 )。 但 是 ， 建 议 在 用 于 表示 地 理 位 置 的 字 
段 上 建立 地 理 空间 索引 ， 这 样 可 以 显著 提高 查询 速度 。 











6.4.2 复合 地 理 空间 索引 

如 果 有 其 他 类 型 的 索引 ， 可 以 将 地 理 空间 索引 与 其 他 字段 组 合 在 一 起 使 用 ， 以 便 
对 更 复杂 的 查询 进行 优化 。 上 面 提 到 过 一 种 可 能 的 查询 :“East Village 有 哪些 餐 
馆 ? ”。 如 果 仅 仅 使 用 地 理 空间 索引 ， 我们 只 能 查找 到 East Village 内 的 所 有 东西 ， 
但 是 如 果 要 将 “restaurants” 或 者 是 “pizza” 单 独 查 询 出 来 ， 就 需要 使 用 其 他 索引 
中 的 字段 了 : 








> db.open.street.map.ensureIndex({"tags" : 1, "location" : "2dsphere"}) 





然后 就 能 够 很 快 地 找到 East Village 内 的 披萨 店 了 : 


> db.open.street.map.Nnd({"loc" : {"$within" : {"$geometry" : eastVillage}}, 
. "tags" : "pizza"}) 








其 他 索引 字段 可 以 放 在 "2dsphere" 字段 前 面 也 可 以 放 在 后 面 ， 这 取决 于 我 们 希望 
首先 使 用 其 他 索引 的 字段 进行 过 滤 还 是 首先 使 用 位 置 进行 过 滤 。 应 该 将 那个 能 够 过 
滤 掉 尽 可 能 多 的 结果 的 字段 放 在 前 面 。 





6.4.3 2d 索 引 
对 于 非 球面 地 图 (游戏 地 图 、 时 间 连 续 的 数据 等 )， 可 以 使 用 "2d" 索引 代替 
"2dsphere": 
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> db.hyrule.ensureIndex({"tile" : "2d"}) 


"2d" 索引 用 于 扁平 表面 ， 而 不 是 球体 表面 。"2d" 索引 不 应 该 用 在 球体 表面 上 ， 否 
则 极点 附近 会 出 现 大 量 的 扭曲 变形 。 

文档 中 应 该 使 用 包含 两 个 元 素 的 数组 表示 2d 索引 字段 (写作 本 书 时 ， 这 个 字段 还 
不 是 GeoJSON 文档 )。 示 例如 下 : 





€ 
"name" : "Water Temple", 
te -32 2 

} 


"2d" 索引 只 能 对 点 进行 索引 。 可 以 保存 一 个 由 点 组 成 的 数组 ， 但 是 它 只 会 被 保存 为 
由 点 组 成 的 数组 ， 不 会 被 当成 线 。 特 别 是 对 于 "$within" 查询 来 说 ， 这 是 一 项 重要 
的 区 别 。 如 果 将 街道 保存 为 由 点 组 成 的 数组 ， 那 么 如 果 其 中 的 某 个 点 位 于 给 定 的 形 
状 之 内 ， 这 个 文档 就 会 与 $within 相 匹 配 。 但 是 ， 由 这 些 点 组 成 的 线 并 不 一 定 完 全 
包含 在 这 个 形状 之 内 。 


默认 情况 下 ， 地 理 空间 索引 是 假设 你 的 值 都 介 于 一 180 ~ 180。 可 以 根据 需要 在 
ensureIndex 中 设置 更 大 或 者 更 小 的 索引 边界 值 : 











> db.star.trek.ensureIndex({"light-years" : "2d"}, {"min" : -1000, "max" : 1000}) 
这 会 创建 一 个 2000 x 2000 大 小 的 空间 索引 。 


使 用 "2d" 索引 进行 查询 比 使 用 "2dsphere" 要 简单 许多 。 可 以 直接 使 用 "$near" 
或 者 "$within"， 而 不 必 带 有 "$geometry" 子 对 象 。 可 以 直接 指定 坐标 : 


> db.hyrule.find({"tile" : {"$near" : [20, 21]}}) 








这 样 会 返回 hyrule 集合 内 的 全 部 文档 ， 按 照 距离 (20,21) 这 个 点 的 距离 排序 。 如 果 
没有 指定 文档 数量 限制 ， 默 认 最 多 返回 100 个 文档 。 如 果 不 需要 这 么 多 结果 ， 应 该 
根据 需要 设置 返回 文档 的 数量 以 市 省 服务 器 资源 。 例 如 ， 下 面 的 代码 只 会 返回 距离 
(20,21) 最 近 的 10 个 文档 : 




















> db.hyrule.find({"tile" : {"$near"” : [20, 21]}}).limit(10) 


"$within" 可 以 查询 出 某 个 形状 (和 矩形 、 圆 形 或 者 是 多 边 形 ) 范围 内 的 所 有 文档 。 
如 果 要 使 用 矩形， 可 以 指定 "$box" 选项 : 











> db.hyrule.Nnd({"tile" : {"$within" : {"$box" : [[10, 20], [15, 30]]}}}) 


"$box" 接受 一 个 两 元 素 的 数组 :第 一 个 元 素 指定 左下 角 的 坐标 ， 第 二 个 元 素 指定 








右上 角 的 坐标 。 


类 似 地 ， 可 以 使 用 "$center" 选项 返回 圆 形 范围 内 的 所 有 文档 ， 这 个 选项 也 是 接受 
一 个 两 元 素数 组 作为 参数 : 第 一 个 元 素 是 一 个 点 ， 用 于 指定 圆心 ， 第 二 个 参数 用 于 
指定 半径 : 


> db.hyrule.find({"tile" : {"$within" : {"$center" : [[12, 25], 5]}}}) 











还 可 以 使 用 多 个 点 组 成 的 数组 来 指定 多 边 形 : 

> db.hyrule.find( 

... {"tile" : {"$within" : {"$polygon" : [[0, 20], [10, 0], [-10, 0]]}}}) 
这 个 例子 会 查询 出 包含 给 定 三 角形 内 的 点 的 所 有 文档 。 列 表 中 的 最 后 一 个 点 会 被 连 
接 到 第 一 个 点 ， 以 便 组 成 多 边 形 。 


6.5 ”使 用 GridFS 存 储 文件 


GridFS 是 MongoDB 的 一 种 存储 机 制 ， 用 来 存储 大 型 二 进 制 文件 。 下 面 列 出 了 使 用 
GridFS 作为 文件 存储 的 理由 。 


。 使 用 GridFS 能 够 简化 你 的 栈 。 如 果 已 经 在 使 用 MongoDB ,那么 可 以 使 用 GridFS 
来 代替 独立 的 文件 存储 工具 。 

。 GridFS 会 自动 平衡 已 有 的 复制 或 者 为 MongoDB 设置 的 自动 分 片 ， 所 以 对 文件 存 
储 做 故障 转移 或 者 横向 扩展 会 更 容易 。 

。 当 用 于 存储 用 户 上 传 的 文件 时 ，GridFS 可 以 比较 从 容 地 解决 其 他 一 些 文件 系统 可 
能 会 遇 到 的 问题 。 例 如 ， 在 GridFS 文件 系统 中 ， 如 果 在 同一 个 目录 下 存储 大 量 
的 文件 ， 没 有 任何 问题 。 

。 在 GridFS 中 ,文件 存储 的 集中 度 会 比较 高 ， 因 为 MongoDB 是 以 2 GB 为 单位 来 
分 配 数 据 文件 的 。 


GridFS 也 有 一 些 缺 点 。 





























。 GridFS 的 性 能 比较 低 : 从 MongoDB 中 访问 文件 ， 不 如 直接 从 文件 系统 中 访问 文 
件 速度 快 。 

。 如 果 要 修改 GridFS 上 的 文档 ， 只 能 先 将 已 有 文档 删除 ， 然 后 再 将 整个 文档 重新 
保存 。MongoDB 将 文件 作为 多 个 文档 进行 存储 ， 所 以 它 无 法 在 同一 时 间 对 文件 
中 的 所 有 块 加 锁 。 


通常 来 说 ， 如 果 你 有 一 些 不 常 改变 但 是 经 常 需要 连续 访问 的 大 文件 ， 那 么 使 用 
GridFS 再 合适 不 过 了 。 
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6.5.1 GridFS 入 门 


使 用 GridFS 最 简单 的 方式 是 使 用 mongofiles 工具 。 所 有 的 MongoDB 发 行 版 中 都 
包含 了 mongofiles， 可 以 用 它 在 GridFS 中 上 传 文件 、 下 载 文 件 、 查 看 文件 列表 、 
搜索 文件 ， 以 及 删除 文件 。 


与 其 他 的 命令 行 工 具 一 样 ， 运 行 mongofiles --help 就 可 以 查看 它 的 可 用 选项 了 。 


在 下 面 这 个 会 话 中 ， 首 先 用 mongofiles 从 文件 系统 中 上 传 一 个 文件 到 GridFS， 然 
后 列 出 GridFS 中 的 所 有 文件 ， 最 后 再 将 之 前 上 传 过 的 文件 从 GridFS 中 下 载 下 来 : 








$ echo "Hello, world" > foo.txt 

$ ./mongofiles put foo.txt 

connected to: 127.0.0.1 

added file: { id: 0bjectId('4c0d2a6c3052c25545139b88 ' )， 
filename: "foo.txt", length: 13, chunkSize: 262144, 
uploadDate: new Date(1275931244818 ) ， 
md5: "a7966bf58e23583c9a5a4059383ff850" } 

done! 

$ ./mongofiles list 

connected to: 127.0.0.1 

foo.txt 13 

$ rm foo.txt 

$ ./mongofiles get foo.txt 

connected to: 127.0.0.1 

done write to: foo.txt 

$ cat foo.txt 

Hello, world 





在 上 面 的 例子 中 ， 使 用 mongofiles 执行 了 三 种 基本 操作 : put、List 和 get。 
put 操作 可 以 将 文件 系统 中 选 定 的 文件 上 传 到 GridFS; list 操作 可 以 列 出 GridFS 
中 的 文件 ，get 操作 与 put 相反 ， 用 于 将 GridFS 中 的 文件 下 载 到 文件 系统 中 。 
mongofiles 还 支持 另外 两 种 操作 : 用 于 在 GridFS 中 搜索 文件 的 search 操作 和 用 
于 从 GridFS 中 删除 文件 的 delete 操作 。 





6.5.2 ”在 MongoDB 驱 动 程序 中 使 用 GridFS 


所 有 客户 端 驱动 程序 都 提供 了 GridFS API。 例 如 ， 可 以 用 PyMongo (MongoDB 的 
Python 驱动 程序 ) 执行 与 上 面 直接 使 用 mongofiles 一 样 的 操作 : 








>>> from pymongo import Connection 

>>> import gridfs 

>>> db = Connection().test 

>>> fs = gridfs.GridFS(db) 

>>> file id = fs.put("Hello, world", filename="foo.txt") 
>>> fs.List() 

[u'foo.txt'] 

>>> fs.get(file id),read() 





"HeLLo，wortd ' 


PyMongo 中 用 于 操作 GridFS 的 API 与 mongofites 非常 像 ， 可 以 很 方便 地 执 
行 put、get 和 1List 操作 。 几 乎 所 有 MongoDB 驱动 程序 都 遵循 这 种 基本 模式 
对 GridFS 进行 操作 ， 当 然 通 常 也 会 提供 一 些 更 高 级 的 功能 。 关 于 特定 驱动 程序 对 
GridFS 的 操作 ， 可 以 查询 相关 驱动 程序 的 文件 。 


6.5.3 ” 揭 开 GridFS 的 面纱 


GridFS 是 一 种 轻 量 级 的 文件 存储 规范 ， 用 于 存储 MongoDB 中 的 普通 文档 。 
MongoDB 服务 器 几乎 不 会 对 GridFS 请 求 做 “特殊 ”处 理 ， 所 有 处 理 都 由 客户 端的 
驱动 程序 和 工具 负责 。 


GridFS 背后 的 理念 是 : 可 以 将 大 文件 分 割 为 多 个 比较 大 的 块 ， 将 每 个 块 作为 独立 的 
文档 进行 存储 。 由 于 MongoDB 支持 在 文档 中 存储 二 进 制 数据 ， 所 以 可 以 将 块 存储 
的 开销 降 到 非常 低 。 除 了 将 文件 的 每 一 个 块 单独 存储 之 外 ， 还 有 一 个 文档 用 于 将 这 
些 块 组 织 在 一 起 并 存储 该 文件 的 元 信息 。 


GridFS 中 的 块 会 被 存储 到 专用 的 集合 中 。 块 默认 使 用 的 集合 是 fs .chunks， 不 过 可 
以 修改 为 其 他 集合 。 在 块 集合 内 部 ， 各 个 文档 的 结构 非常 简单 




















{ 
"id" : ObjectId("..."), 
"nS 05 
"data" : BinData("..."), 
"files id" : ObjectId("...") 
} 





与 其 他 的 MongoDB 文档 一 样 ， 块 也 都 拥有 一 个 唯一 的 ”id"。 另 外 ， 还 有 如 下 几 
个 键 。 





。 "files id" 


块 所 属 文 件 的 元 信息 。 

i 

块 在 文件 中 的 相对 位 置 。 
。 "data" 

块 所 包含 的 二 进 制 数据 。 
每 个 文件 的 元 信息 被 保存 在 一 个 单独 的 集合 中 ， 默 认 情 况 下 这 个 集合 是 fs .files。 
这 个 文件 集合 中 的 每 一 个 文档 表示 GridFS 中 的 一 个 文件 ， 文 档 中 可 以 包含 与 这 个 文 





特殊 的 索引 和 集合 | 127 


件 相关 的 任意 用 户 自 定义 元 信息 。 除 用 户 自 定义 的 键 之 外 ， 还 有 几 个 键 是 GridFS 规 
范 规定 必须 要 有 的 。 
人 

文件 的 唯一 id， 这 个 值 就 是 文件 的 每 个 块 文档 中 "files_id" 的 值 。 





» "Length" 
文件 所 包含 的 字 节 数 。 


。 "chunkSize" 
组 成 文件 的 每 个 块 的 大 小 ， 单 位 是 字 节 。 这 个 值 默认 是 256 KB ， 可 以 在 需要 时 
进行 调整 。 

。 "uploadDate" 
文件 被 上 传 到 GridFS 的 日 期 。 


。 "md5" 
文件 内 容 的 md5 校 验 值 ， 这 个 值 由 服务 器 端 计算 得 到 。 


这 些 必须 字段 中 最 有 意思 (或 者 说 能 够 见 名 知 意 ) 的 一 个 可 能 是 "md5"。"md5" 字 
段 的 值 是 由 MongoDB 服务 器 使 用 filemd5 命令 得 到 的 ， 这 个 命令 可 以 用 来 计算 上 
传 到 GridFS 的 块 的 mq5 校 验 值 。 这 意味 着 ， 用 户 可 以 通过 检查 文件 的 md5 校 验 值 
来 确保 文件 上 传 正确 。 


如 上 面 所 说 , 在 fs.files 中 ， 除 了 这 些 必 须 字 段 外 ， 可 以 使 用 任何 自 定义 的 字 
段 来 保存 必需 的 文件 元 信息 。 可 能 你 希望 在 文件 元 信息 中 保存 文件 的 下 载 次 数 、 
MIME 类 型 或 者 用 户 评分 。 

只 要 理解 了 GridFS 底层 的 规范 ， 自 己 就 可 以 很 容易 地 实现 一 些 驱 动 程序 没有 提供 
的 辅助 功能 。 例 如 ， 可 以 使 用 distinct 命令 得 到 GridFS 中 保存 文件 的 文件 名 集合 
(集合 中 的 每 个 文件 名 都 是 唯一 的 )。 








> db.fs.files.distinct("filename") 
[ “foowtxt™  . wbarstxt, >"bazatxt" 襄 


这 样 ， 在 加 载 或 者 收集 文件 相关 信息 时 ， 应 用 程序 可 以 拥有 非常 大 的 灵活 性 。 
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如 果 你 有 数据 存储 在 MongoDB 中 ， 你 想 做 的 可 能 就 不 仅仅 是 将 数据 提取 出 来 那么 简 
单 了 ; 你 可 能 希望 对 数据 进行 分 析 并 加 以 利用 。 本 章 介 绍 MongoDB 提供 的 聚合 工具 : 





。 聚合 框架 ， 
。 MapReduce; 


。 几 个 简单 聚合 命令 : count、distinct 和 group。 





7.1 聚合 框架 


使 用 聚合 框架 可 以 对 集合 中 的 文档 进行 变换 和 组 合 。 基 本 上 ， 可 以 用 多 个 构件 
创建 一 个 管道 (pipeline)， 用 于 对 一 连 串 的 文档 进行 处 理 。 这 些 构件 包括 筛选 
(filtering)、 投 射 (projecting)、 分 组 (grouping)、 排 序 (sorting)、 限 制 (limiting ) 
和 跳 过 (skipping ) 。 








例如 ， 有 一 个 保存 着 杂志 文章 的 集合 ， 你 可 能 希望 找 出 发 表 文章 最 多 的 那个 作者 。 
假设 每 篇 文章 被 保存 为 MongoDB 中 的 一 个 文档 ， 可 以 按照 如 下 步骤 创建 管道 。 

(1) 将 每 个 文章 文档 中 的 作者 投射 出 来 。 

(2) 将 作者 按照 名 字 排 序 ， 统 计 每 个 名 字 出 现 的 次 数 。 

(3) 将 作者 按照 名 字 出 现 次 数 降序 排列 。 

(4) 将 返回 结果 限制 为 前 5 个 。 
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这 里 面 的 每 一 步 都 对 应 聚合 框架 中 的 一 个 操作 符 : 
(1) {"$project" : {"author" : 1}} 
这 样 可 以 将 "author" 从 每 个 文档 中 投射 出 来 。 


这 个 语法 与 查询 中 的 字段 选择 器 比较 像 : 可 以 通过 指定 "fieldname" : 1 选 
择 需要 投射 的 字段 ， 或 者 通过 指定 "fieldname" : 0 排除 不 需要 的 字段 。 执 
行 完 这 个 "$project" 操作 之 后 ， 结 果 集 中 的 每 个 文档 都 会 以 {"_id"” : ia， 


"author" : "authorName"} 这 样 的 形式 表示 。 这 些 结果 只 会 在 内 存 中 存在 ， 
不 会 被 写 入 磁盘 。 
(2) {"$group" : {" id" : "$author", "count" : {"$sum" : 1}}} 


这 样 就 会 将 作者 按照 名 字 排 序 ， 某 个 作者 的 名 字 每 出 现 一 次 ， 就 会 对 这 个 作者 的 
"count" 加 1。 


这 里 首先 指定 了 需要 进行 分 组 的 字段 "author"。 这 是 由 " id" : "$author" 














指定 的 。 可 以 将 这 个 操作 想象 为 : 这 个 操作 执行 完 后 ， 每 个 作者 只 对 应 一 个 结果 
文档 ， 所 以 "author" 就 成 了 文档 的 唯一 标识 符 ("_id")。 
第 二 个 字段 的 意思 是 为 分 组 内 每 个 文档 的 "count" 字段 加 1。 注意 ， 新 加 入 的 文 
档 中 并 不 会 有 "count" 字段 ， 这 "$group" 创建 的 一 个 新 字段 。 











执行 完 这 一 步 之 后 ， 结 果 集 中 的 每 个 文档 会 是 这 样 的 结构 : {"_id" : "au- 
thorName", "count" : articleCount}.。 
(3) {"$sort" : {"count" : -1}} 














这 个 操作 会 对 结果 集中 的 文档 根据 "count" 字段 进行 降序 排列 。 
(4) {"$limit" : 5} 
这 个 操作 将 最 终 的 返回 结果 限制 为 当前 结果 中 的 前 5 个 文档 。 





在 MongoDB 中 实际 运行 时 ， 要 将 这 些 操 作 分 别传 给 aggregate() 函数 : 





> db.articles.aggregate({"$project" : {"author" : 1}}, 


... {"$group" : {"_id" : "$author", "count" : {"$sum" : 1}}}, 
... {"$sort" ; {"count" : -1}}, 
... {"$limit" : 5}) 
{ 
"result" : [ 
{ 
"id" : "R., L. Stine", 





"count" : 430 


}, 
{ 
"_id" :; "Edgar Wallace", 
"count" : 175 
}， 
{ 
"_id" :; "Nora Roberts", 
"count" : 145 
}， 
{ 
"_ id" :; "Erle Stanley Gardner", 
"count" : 140 
}, 
{ 
"_ id" : "Agatha Christie", 
"count" : 85 
} 
]5 
"ok" 1 


aggregate() 会 返回 一 个 文档 数组 ， 其 中 的 内 容 是 发 表 文 章 最 多 的 5 个 作者 。 


赚 六 








如 果 管 道 没有 给 出 预期 的 结果 ， 就 需要 进行 调试 ， 调 试 时 ， 可 以 先 只 指定 
心 。 第 一 个 管道 操作 符 。 如 果 这 时 得 到 了 预期 结果 ， 那 就 再 指定 第 二 个 管道 操 
全， 作 符 。 以 前 面 的 例子 来 说 ， 首 先 要 试 着 只 使 用 "$project" 操作 符 进 行 聚 
合 ， 如 有 果 这 个 操作 符 的 结果 是 有 效 的， 就 再 添加 "$group " 操作 符 ， 如 果 
结果 还 是 有 效 的 ， 就 再 添加 "$sort"，; 最 后 再 添加 "$limit" 操作 符 。 这 

样 就 可 以 逐步 定位 到 造成 问题 的 操作 符 。 









































本 书写 作 时 ， 聚 合 框架 还 不 能 对 集合 进行 号 人 操作 ， 因 此 所 有 结果 必须 返回 给 客户 
端 。 所 以 ， 聚 合 的 结果 必须 要 限制 在 16 MB 以 内 (MongoDB 支持 的 最 大 响应 消息 
大 小 )。 


7.2 管道 操作 符 

每 个 操作 符 都 会 接受 一 连 串 的 文档 ， 对 这 些 文档 做 一 些 类 型 转换 ， 最 后 将 转换 后 的 
文档 作为 结果 传递 给 下 一 个 操作 符 (对 于 最 后 一 个 管道 操作 符 ， 是 将 结果 返回 给 客 
户 端 ) 。 

不 同 的 管道 操作 符 可 以 按 任意 顺序 组 合 在 一 起 使 用 ， 而 且 可 以 被 重复 任意 多 次 。 
例如 ， 可 以 先 做 "$match"， 然 后 做 "$group"， 然 后 再 做 "$match" (与 之 前 的 
"$match" 匹配 不 同 的 查询 条 件 ) 。 




















7.2.1 $match 


$match 用 于 对 文档 集合 进行 盘 选 ， 之 后 就 可 以 在 筛选 得 到 的 文档 子 集 上 做 聚 
合 。 例 如 ， 如 果 想 对 Oregon (俄勒冈 州 ， 简 写 为 OR) 的 用 户 做 统计 ， 就 可 以 使 
用 {$match : f{"state" : "0R"}}。"$match" 可 以 使 用 所 有 常规 的 查询 操作 符 
("$gt"、"$Llt"、"$in" 等 )。 有 一 个 例外 需要 注意 : 不 能 在 "$match" 中 使 用 地 理 
空间 操作 符 。 

通常 ， 在 实际 使 用 中 应 该 尽 可 能 将 "$match" 放 在 管道 的 前 面 位置 。 这 样 做 有 两 个 
好 处 : 一 是 可 以 快速 将 不 需要 的 文档 过 滤 掉 ， 以 减少 管道 的 工作 量 ， 二 是 如 果 在 投 
射 和 分 组 之 前 执行 "$match"， 查 询 可 以 使 用 索引 。 

















7.2.2 $project 

相对 于 “普通 ”的 查询 而 言 ， 管 道中 的 投射 操作 更 加 强大 。 使 用 "$project" 可 以 从 
子 文档 中 提取 字段 ， 可 以 重 命名 字段 ， 还 可 以 在 这 些 字段 上 进行 一 些 有 意思 的 操作 。 
最 简单 的 一 个 "$project" 操作 是 从 文档 中 选择 想 要 的 字段 。 可 以 指定 包含 或 者 不 
包含 一 个 字段 ， 它 的 语法 与 查询 中 的 第 二 个 参数 类 似 。 如 果 在 原来 的 集合 上 执行 下 
面 的 代码 ， 返 回 的 结果 文档 中 只 包含 一 个 "author'" 字段 。 
































> db.artictes.aggregate({"$project"”: {"author"” : 1, " id" :; 0}}) 





默认 情况 下 ， 如 果 文 档 中 存在 "_id" 字段 ， 这 个 字段 就 会 被 返回 ("_id" 字段 可 以 
被 一 些 管道 操作 符 移 除 ， 也 可 能 已 经 被 之 前 的 投射 操作 给 移 除 了 )。 可 以 使 用 上 面 的 
代码 将 "_id" 从 结果 文档 中 移 除 。 包 含 字段 和 排除 字段 的 规则 与 常规 查询 中 的 语法 
全 至 。 


也 可 以 将 投射 过 的 字段 进行 重 命 名 。 例 如 ， 可 以 将 每 个 用 户 文 档 的 ”id" 在 返回 结 
果 中 重 命 名 为 "userId": 






































> db.users.aggregate({"$project" : {"userId" : "$ id", " id" :; 0}}) 
{ 
esti :| 
{ 
"userId" : 0bjectId("50e4b32427b160e099ddbee7") 
}, 
{ 
"userId" : ObjectId("50e4b32527bl60e099ddbee8") 
} 
]s 
nokn 1 





这 里 的 "$fieloname" 语法 是 为 了 在 聚合 框架 中 引用 fieldname 字段 (上 面 的 例 
子 中 是 " id") 的 值 。 例 如 ，"$age" 会 被 替换 为 "age" 字段 的 内 容 (可 能 是 数值 ， 
也 可 能 是 字符 串 ) ，"$tags.3" 会 被 替换 为 tags 数组 中 的 第 4 个 元 素 。 所 以 ， 上 面 
例子 中 的 "$_id" 会 被 替换 为 进入 管道 的 每 个 文档 的 " id" 字段 的 值 。 


注意 ， 必 须 明确 指定 将 "_id" 排除 ， 否 则 这 个 字段 的 值 会 被 返回 两 次 ; 一 次 被 标 为 
"userId", 一 次 被 标 为 "id"。 可 以 使 用 这 种 技术 生成 字段 的 多 个 副本 ， 以 便 在 之 
后 的 "$group" 中 使 用 。 

在 对 字段 进行 重 命名 时 ，MongoDB 并 不 会 记录 字段 的 历史 名 称 。 因 此 ， 如 果 
在 "originalfieldname" 字段 上 有 一 个 索引 ， 聚 合 框架 无 法 在 下 面 的 排序 操作 
中 使 用 这 个 索引 ， 尽管 人 眼 一 下 子 就 能 看 出 下 面 代码 中 的 "newfieldname" 与 


"originalfieldname" 表示 同一 个 字段 。 




















> db.articles.aggregate({"$project" : {"newfieldname" : "$originalfieldname"}}, 
... {"$sort" : {"newfieldname" : 1}}) 


所 以 ， 应 该 尽量 在 修改 字段 名 称 之 前 使 用 索引 。 


1. 管道 表达 式 

最 简单 的 "$project" 表达 式 是 包含 和 排除 字段 ， 以 及 字段 名 称 〈"$fieldname'")。 
但 是 ， 还 有 一 些 更 强大 的 选项 。 也 可 以 使 用 表达 式 (expression) 将 多 个 字面 量 和 变 
量 组 合 在 一 个 值 中 使 用 。 


在 聚合 框架 中 有 几 个 表达 式 可 用 来 组 合 或 者 进行 任意 次 度 的 对 套 ， 以 便 创建 复杂 的 








2. 数学 表达 式 (mathematical expression) 
算术 表达 式 可 用 于 操作 数值 。 指 定 一 组 数值 ， 就 可 以 使 用 这 个 表达 式 进行 操作 了 。 
例如 ， 下 面 的 表达 式 会 将 "salary" 和 "bonus" 字段 的 值 相 加 。 


> db.employees.aggregatel( 


"$project" : { 

"totalPay" : { 

"$add" : ["$salary", "$bonus"] 

} 
a } 

..…. }) 
可 以 将 多 个 表达 式 租 套 在 一 起 组 成 更 复杂 的 表达 式 。 假 设 我 们 想 要 从 总 金额 中 扣除 
为 401(k) 缴纳 的 金额 。 可 以 使 用 "$subtract" 表达 式 : 











注 1: 401(k) 是 美国 的 一 种 养老 金 计 划 。 一 一 译 者 注 




















> db.empLoyees.aggregate( 
.{ 
"$project" : { 
"totalPay" : { 
"$subtract" : [{"$add" : ["$salary", "$bonus"]}, "$401k"] 
} 
a } 
. }) 


表达 式 可 以 进行 任意 层次 的 髓 人 套 。 
下 面 是 每 个 操作 符 的 语法 : 


。 "$add" : [expri[, expr2, ..., exprN]] 
这 个 操作 符 接受 一 个 或 多 个 表达 式 作 为 参数 ， 将 这 些 表达 式 相 加 。 


。 "$subtract" : [expr 了 ，expr2] 
接受 两 个 表达 式 作为 参数 ， 用 第 一 个 表达 式 减 去 第 二 个 表达 式 作为 结果 。 





。 "$multiply" : [expri[, expr2, ..., eXxprN]] 
接受 一 个 或 者 多 个 表达 式 ， 并 且 将 它们 相 乘 。 


。 "$divide" : [exprl, expr2] 


接受 两 个 表达 式 ， 用 第 一 个 表达 式 除 以 第 二 个 表达 式 的 商 作为 结果 。 


。 "$mod" : [exprI，expr2] 
接受 两 个 表达 式 ， 将 第 一 个 表达 式 除 以 第 二 个 表达 式 得 到 的 余数 作为 结果 。 




















3. 日 期 表达 式 (date expression) 

许多 聚合 都 是 基于 时 间 的 : 上 周 发 生 了 什么 ? 上 个 月 发 生 了 什么 ?过 去 一 年 间 发 
生 了 什么 ? 因此 ， 聚 合 框架 中 包含 了 一 些 用 于 提取 日 期 信息 的 表达 式 : "$year"、 
"$month"、 "$week"、 "$day0fMonth"、"s$day0fWeek"、"$day0fYear"、 
"$hour"、"$minute" 和 "$second"。 只 能 对 日 期 类 型 的 字段 进行 日 期 操作 ， 不 能 
对 数值 类 型 字段 做 日 期 操作 。 


每 种 日 期 类 型 的 操作 都 是 类 似 的 : 接受 一 个 日 期 表达 式 ， 返 回 一 个 数值 。 下 面 的 代 
码 会 返回 每 个 雇员 入 职 的 月 份 : 





> db.empLoyees.aggregate( 
"$project" : { 
"hiredIn" : {"$month" : "$hireDate"} 





也 可 以 使 用 字面 量 日 期 。 下 面 的 代码 会 计算 出 每 个 雇员 在 公司 内 的 工作 时 间 


> db.empLoyees.aggregate( 
wi 
"$project" : { 
"tenure" : { 
"$subtract" : [{"$year" : new Date()}, {"$year" : "$hireDate"}] 
} 
} 
. }) 
4. 字符 串 表 达 式 (string expression) 
也 有 一 些 基 本 的 字符 串 操 作 可 以 使 用 ， 它 们 的 签名 如 下 所 示 。 


。 "$substr" : [expr, startOffset, numToReturn] 
其 中 第 一 个 参数 expr 必须 是 个 字符 串 ， 这 个 操作 会 截取 这 个 字符 串 的 
第 start0ffset 字 节 开始 的 numToReturn 字 节 ， 注 意 ， 是 字 节 
多 字 节 编码 中 尤其 要 注意 这 一 点 ) expr 必须 是 字符 串 。 


。 "$concat" : [expri[, expr2, ..., exprN]] 


将 给 定 的 表达 式 (或 者 字符 串 ) 连接 在 一 起 作为 返回 结果 。 








。 "$toLower" : expr 
参数 expr 必须 是 个 字符 串 值 ， 这 个 操作 返回 expr 的 小 写 形 式 。 


。 "$toUpper" : expr 
参数 expr 必须 是 个 字符 串 值 ， 这 个 操作 返回 expr 的 大 写 形式 。 


改变 字符 大 小 写 的 操作 ， 只 保证 对 罗马 字符 有 效 。 


下 面 是 一 个 生成 j.doe@example.com 格式 的 email 地 址 的 例子 。 它 提取 
"$firstname" 的 第 一 个 字符 ， 将 其 与 多 个 常量 字符 串 和 "$Lastname'" 连接 成 一 
个 字符 串 : 








> db.empLoyees.aggregate( 


二 
"$project" : { 
"email" : { 
"$concat" :; [ 
{"$substr" : ["$firstName", 0, 1]}, 
"$lastName", 
"Gexample.com" 
] 
} 
i } 
，】}) 





5. 逻辑 表达 式 (logical expression) 
有 一 些 逻 辑 表达 式 可 以 用 于 控制 语句 。 


下 面 是 几 个 比较 表达 式 。 





。 "$cmp" : [expri, expr2] 
比较 exprl 和 expr2。 如 果 exprl 等 于 expr2， 返 回 0， 如 果 exprl < expr2， 
返回 一 个 负数 ， 如 果 exprl >expr2， 返 回 一 个 正 数 。 





。 "$strcasecmp" : [stringl, string2] 
比较 stringl 和 string2， 区 分 大 小 写 。 只 对 罗马 字符 组 成 的 字符 串 有 效 。 





。 "$eq"/"$ne"/"s$gt"/"$gte"/"s$lt"/"$lte" : [expr 了 了 ，expr2] 
对 exprl 和 expr2 执行 相应 的 比较 操作 ， 返 回 比较 的 结果 (true 或 false)。 


下 面 是 几 个 布尔 表达 式 。 





。 "$and" : [expri[, expr2, ..., exprN]] 
如 果 所 有 表达 式 的 值 都 是 true， 那 就 返回 true， 否 则 返回 false。 





。 "$0or" : [expri[, expr2, ..., exprN]] 
只 要 有 任意 表达 式 的 值 为 true， 就 返回 true， 人 否则 返回 false。 





。 "$not" : expr 
对 expr 取 反 。 


还 有 两 个 控制 语句 。 


。 "$cond" : [booleanExpr, trueExpr, falseExpr] 
如 果 booleanExpr 的 值 是 true， 那 就 返回 trueExpr， 否 则 返回 falseExpr。 


。 "$ifNull" : [expr, replacementExpr] 
如 果 expr 是 null， 返回 repLacementExpr， 否 则 返回 expr。 


通过 这 些 操作 符 ， 就 可 以 在 聚合 中 使 用 更 复杂 的 逻辑 ， 可 以 对 不 同 数据 执行 不 同 的 
代码 ， 得 到 不 同 的 结果 。 


管道 对 于 输入 数据 的 形式 有 特定 要 求 ， 所 以 这 些 操作 符 在 传人 数据 时 要 特别 注意 。 
算术 操作 符 必 须 接 受 数 值 ， 日 期 操作 符 必 须 接受 日 期 ， 字 符 串 操作 符 必 须 接 受 字 符 
串 ， 如 果 有 字符 缺失 ， 这 些 操 作 符 就 会 报错 。 如 果 你 的 数据 集 不 一 致 ， 可 以 通过 这 
个 条 件 来 检测 缺失 的 值 ， 并 且 进 行 填充 。 






































6. 一 个 提取 的 例子 

假如 有 个 教授 想 通 过 某 种 比较 复杂 的 计算 为 学 生 打 分 : 出 勤 率 占 10%， 日 常 测验 成 
绩 占 30% ， 期 末 考 试 占 60% 〈 如 果 是 老师 最 宠爱 的 学 生 ， 那 么 分 数 就 是 100) 。 可 以 
使 用 如 下 代码 : 




















> db.students.aggregate( 


,区 
"$project" : { 
"grade" : { 
"$cond" : [ 
"$teachersPet", 
100, // if 
{ // else 
"$add" : [ 
{"$multiply" : [.1, "$attendanceAvg"]}, 
{"s$multiply" : [.3, "$quizzAvg"]}, 
{"$multiply" : [.6, "$testAvg"]} 
] 
} 
] 
i } 
. }) 
7.2.3 $group 


$group 操作 可 以 将 文档 依据 特定 字段 的 不 同 值 进行 分 组 。 下 面 是 儿 个 分 组 的 例子 。 


。 如 果 我 们 以 分 钟 作 为 计量 单位 ， 和 希望 找 出 每 天 的 平均 湿度， 就 可 以 根据 "day'" 字 
段 进 行 分 组 。 

。 如 果 有 一 个 学 生 集合 ， 希 望 按照 分 数 等 级 将 学 生 分 为 多 个 组 ， 可 以 根据 "grade" 
字段 进行 分 组 。 

。 如 果 有 一 个 用 户 集合 ， 和 希望 知道 每 个 城市 有 多 少 用 户 ， 可 以 根据 "state" 和 
"city" 两 个 字段 对 集合 进行 分 组 ， 每 个 "city"/"state" 对 对 应 一 个 分 组 。 不 
应 该 只 根据 "city" 字段 进行 分 组 ， 因 为 不 同 的 州 可 能 拥有 相同 名 字 的 城市 。 


如 果 选 定 了 需要 进行 分 组 的 字段 ， 就 可 以 将 选 定 的 字段 传递 给 "$group" 函数 的 
”id" 字段。 对 于 上 面 的 例子 ， 相 应 的 代码 如 下 : 


















































* {"$group" : {" id" : "$day"}} 
。 {"$group" : {" _ id" :; "$grade"}} 
* {"$group™ * {" id" : {"state" : "$state", "city"” : "$city"}}} 





如 果 执 行 这 些 代码 ， 结 果 集 中 每 个 分 组 对 应 一 个 只 有 一 个 字段 (分 组 键 ) 的 文 
档 。 例 如 ， 按 学 生 分 数 等 级 进行 分 组 的 结果 可 能 是 : {"result" : [{"_id" 








Rp Td A ML VA, dry ld" rE ks 
1}。 通 过 上 面 这 些 代码 ， 可 以 得 到 特定 字段 中 每 一 个 不 同 的 值 ， 但 是 所 有 例子 都 要 
求 基于 这 些 分 组 进行 一 些 计 算 。 因 此 ， 可 以 添加 一 些 字段 ， 使 用 分 组 操作 符 对 每 个 
分 组 中 的 文档 做 一 些 计算 。 


1. 分 组 操作 符 
这 些 分 组 操作 符 允 许 对 每 个 分 组 进行 计算 ,得 到 相应 的 结果 。7.1 节 介 绍 过 "$sum" 
分 组 操作 符 的 作用 : 分 组 中 每 出 现 一 个 文档 ， 它 就 对 计算 结果 加 1， 这 样 便 可 以 得 
到 每 个 分 组 中 的 文档 数量 。 


2. 算术 操作 符 
有 两 个 操作 符 可 以 用 于 对 数值 类 型 字段 的 值 进行 计算 : "$sum" 和 "$average"。 























。 "$sum" : value 
对 于 分 组 中 的 每 一 个 文档 ， 将 value 与 计算 结果 相 加 。 注 意 ， 上 面 的 例子 中 使 用 
了 一 个 字面 量 数 字 1， 但 是 这 里 也 可 以 使 用 比较 复杂 的 值 。 例 如 ， 如 果 有 一 个 集 
合 ， 其 中 的 内 容 是 各 个 国家 的 销售 数据 ， 使 用 下 面 的 代码 就 可 以 得 到 每 个 国家 的 
总 收入 : 











> db.sales.aggregatel( 
"$group"” : { 
"_id" : "$country", 
"totalRevenue" : {"$sum" : "$revenue"} 
. }) 
。 "$avg" : value 
返回 每 个 分 组 的 平均 值 。 


例如 ， 下 面 的 代码 会 返回 每 个 国家 的 平均 收入 ， 以 及 每 个 国家 的 销量 : 





> db.sales.aggregatel( 


"$group" : { 
"_id" : "$country", 
"totalRevenue" : {"$avg" : "$revenue"}, 
"numSales" : {"$sum" : 1} 
} 
.}) 


3. 极 值 操作 符 (extreme operator) 
下 面 的 四 个 操作 符 可 用 于 得 到 数据 集合 中 的 “边缘 ” 值 。 
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。 "$max" : expr 


返回 分 组 内 的 最 大 值 。 
。 "$min” : expr 

返回 分 组 内 的 最 小 值 。 
。 "$first" : expr 


返回 分 组 的 第 一 个 值 ， 忽 略 后 面 所 有 值 。 只 有 排序 之 后 ， 明 确 知 道 数据 顺序 时 这 
个 操作 才 有 意义 。 





。 "$last" : expr 
与 "$first" 相反 ， 返 回 分 组 的 最 后 一 个 值 。 


"$max" 和 "$min" 会 查看 每 一 个 文档 ， 以 便 得 到 极 值 。 因 此 ， 如 果 数 据 是 无 序 的 ， 
这 两 个 操作 符 也 可 以 有 效 工作 ， 如 果 数 据 是 有 序 的 ， 这 两 个 操作 符 就 会 有 些 浪 费 。 
假设 有 一 个 存 有 学 生 考 试 成 绩 的 数据 集 ， 需 要 找到 其 中 的 最 高 分 与 最 低 分 : 





> db.scores.aggregate( 


"$group" : { 
"id" :; "$grade", 
"lowestScore" : {"$min" : "$score"}, 
"highestScore" : {"$max" : "$score"} 


i } 

. }) 
另 一 方面 ， 如 果 数 据 集 是 按照 希望 的 字段 排序 过 的 ， 那 么 "$first" 和 "$last" 操 
作 符 就 会 非常 有 用 。 下 面 的 代码 与 上 面 的 代码 可 以 得 到 同样 的 结果 : 


> db.scores.aggregate( 


,区 
a "$sort" : {"score" : 1} 
ed 凡 
7 
"$group" : { 
"id" :; "$grade", 
"lowestScore" : {"$first" : "$score"}, 
"highestScore" : {"$last" : "$score"} 
ee } 
，】}) 




















如 果 数 据 是 排 过 序 的 ， 那 么 $first 和 $last 会 比 $min 和 $max 效率 更 高 。 如 果 
不 准备 对 数据 进行 排序 ， 那 么 直接 使 用 $min 和 $max 会 比 先 排序 再 使 用 $first 和 
$last 效率 更 高 。 








4. 数组 操作 符 
有 两 个 操作 符 可 以 进行 数组 操作 。 


。 "$addToSet" : expr 
如 果 当 前 数组 中 不 包含 expr ， 那 就 将 它 添 加 到 数组 中 。 在 返回 结果 集中 ， 每 个 
元 素 最 多 只 出 现 一 次 ， 而 且 元 素 的 顺序 是 不 确定 的 。 





























。 "$push" : expr 
不 管 expr 是 什么 值 ， 都 将 它 添加 到 数组 中 。 返 回 包含 所 有 值 的 数组 。 


5. 分 组 行为 

有 两 个 操作 符 不 能 用 前 面 介绍 的 流 式 工作 方式 对 文档 进行 处 理 ，"$group" 是 其 中 
之 一 。 大 部 分 操作 符 的 工作 方式 都 是 流 式 的 ， 只 要 有 新 文档 进入 ， 就 可 以 对 新 文档 
进行 处 理 ， 但 是 "$group" 必须 要 等 收 到 所 有 的 文档 之 后 ， 才 能 对 文档 进行 分 组 ， 
然后 才能 将 各 个 分 组 发 送 给 管道 中 的 下 一 个 操作 符 。 这 意味 着 ， 在 分 片 的 情况 下 ， 
"$group" 会 先 在 每 个 分 片上 执行 ， 然 后 各 个 分 片上 的 分 组 结果 会 被 发 送 到 mongos 再 
进行 最 后 的 统一 分 组 ， 剩 余 的 管道 工作 也 都 是 在 mongos (而 不 是 在 分 片 ) 上 运行 的 。 























7.2.4 $$unwind 


拆 分 (unwind) 可 以 将 数组 中 的 每 一 个 值 拆 分 为 单独 的 文档 。 例 如 ， 如 果 有 一 篇 拥 
有 多 条 评论 的 博客 文章 ， 可 以 使 用 $unwind 将 每 条 评论 拆 分 为 一 个 独立 的 文档 : 


> db.blog.findOne() 

















{ 
" id" : 0bjectId("50eeffc4c82a5271290530be'" ) ， 
"author"” : "k", 
"post" : "Hello, world!", 
"comments" : [ 
{ 
"author" : "mark", 
"date" : ISODate("2013-01-10T17:52:04.1482Z")， 
"text" : "Nice post" 
}, 
{ 
"author" : "bill", 
"date" : ISODate("2013-01-10T17:52:04.1482Z")， 
"text" : "I agree" 
} 
] 
让 
> db.blog.aggregate({"s$unwind" : "$comments"}) 
{ 
"results" : 
{ 


"_id" : ObjectId("50eeffc4c82a5271290530be")， 





"author"” : "k", 

"post" : "Hello, world!", 

"comments" : { 
"author" : "mark", 
"date" : ISODate("2013-01-10T17:52:04.1482")， 
"text" : "Nice post" 


"_ id" :; ObjectId("50eeffc4c82a5271290530be")，, 
"author"” : "k", 
"post" : "Hello, world!", 
"comments" : { 
"author" : "bill", 
"date" : ISODate("2013-01-10T17:52:04.1482")， 
"text" : "I agree" 


"ok" :1 
} 

如 果 和 希望 在 查询 中 得 到 特定 的 子 文档 ， 这 个 操作 符 就 会 非常 有 用 : 先 使 用 

"$unwind" 得 到 所 有 子 文档 ， 再 使 用 "$match'" 得 到 想 要 的 文档 。 例 如 ， 如 果 要 得 

到 特定 用 户 的 所 有 评论 (只 需要 得 到 评论 ， 不 需要 返回 评论 所 属 的 文章 )， 使 用 普通 

的 查询 是 不 可 能 做 到 的 。 但 是 ， 通 过 提取 、 拆 分 、 匹 配 ， 就 很 容易 了 : 


























> db.blog.aggregate({"s$project" : {"comments" : "$comments"}}, 
... {"$unwind" : "$comments"}, 
... {"$match" : {"comments.author" : "Mark"}}) 


由 于 最 后 得 到 的 结果 仍然 是 一 个 "comments" 子 文档 ， 所 以 你 可 能 希望 再 做 一 次 投 
射 ， 以 便 让 输出 结果 更 优雅 。 





7.2.5 $sort 

可 以 根据 任何 字段 (或 者 多 个 字段 ) 进行 排序 ， 与 在 普通 查询 中 的 语法 相同 。 如 果 
要 对 大 量 的 文档 进行 排序 ， 强 烈 建议 在 管道 的 第 一 阶段 进行 排序 ， 这 时 的 排序 操作 
可 以 使 用 索引 。 和 否则， 排序 过 程 就 会 比较 慢 ， 而 且 会 占用 大 量 内 存 。 


可 以 在 排序 中 使 用 文档 中 实际 存在 的 字段 ， 也 可 以 使 用 在 投射 时 重 命名 的 字段 : 





> db.employees.aggregatel( 
.1{ 
"$project" :; { 
"compensation" : { 
"$add" : ["$salary", "$bonus"] 
} 


, 
"name" :1 





i 
了 "$sort" : {"compensation" : -1, "name" : 1} 

Rcd) 
这 个 例子 会 对 员工 排序 ， 最 终 的 结果 是 按照 报酬 从 高 到 低 ， 姓 名 从 A 到 Z 的 顺序 
排列 。 


排序 方向 可 以 是 1 (升序 ) 和 -1 (降序 )。 


与 前 面 讲 过 的 "$group” 一 样 ,，"$sort" 也 是 一 个 无 法 使 用 流 式 工作 方式 的 操作 
符 。"$sort" 也 必须 要 接收 到 所 有 文档 之 后 才能 进行 排序 。 在 分 片 环境 下 ， 先 在 各 
个 分 片上 进行 排序 ， 然 后 将 各 个 分 片 的 排序 结果 发 送 到 mongos 做 进一步 处 理 。 











7.2.6 $limit 
$Limit 会 接受 一 个 数字 n， 返 回 结 果 集 中 的 前 个 文档 。 





7.2.7 $skip 

$skip 也 是 接受 一 个 数字 n， 丢 弃 结 果 集 中 的 前 n 个 文档 ， 将 剩余 文档 作为 结果 返 
回 。 在 “普通 ”查询 中 ， 如 果 需 要 跳 过 大 量 的 数据 ， 那 么 这 个 操作 符 的 效率 会 很 低 。 
在 聚合 中 也 是 如 此 ， 因 为 它 必须 要 先 匹 配 到 所 有 需要 跳 过 的 文档 ， 然 后 再 将 这 些 文 
档 丢 弃 。 











7.2.8 使 用 管道 

应 该 尽量 在 管道 的 开始 阶段 (执行 "$project"、"$group" 或 者 "$unwind" 操作 
之 前 ) 就 将 尽 可 能 多 的 文档 和 字段 过 滤 掉 。 管 道 如 果 不 是 直接 从 原先 的 集合 中 使 用 
数据 ， 那 就 无 法 在 筛选 和 排序 中 使 用 索引 。 如 果 可 能 ， 聚 合 管道 会 尝试 对 操作 进行 
排序 ， 以 便 能 够 有 效 使 用 索引 。 


MongoDB 不 允许 单一 的 聚合 操作 占用 过 多 的 系统 内 存 : 如 果 MongoDB 发 现 某 个 聚 
合 操作 占用 了 20% 以 上 的 内 存 ， 这 个 操作 就 会 直接 输出 错误 。 人 允许 将 输出 结果 利用 
管道 放 入 一 个 集合 中 是 为 了 方便 以 后 使 用 (这样 可 以 将 所 需 的 内 存 减 至 最 小 )。 

如 果 能 够 通过 "$match" 操作 迅速 减 小 结果 集 的 大 小 ， 就 可 以 使 用 管道 进行 实时 聚 
合 。 由 于 管道 会 不 断 包含 更 多 的 文档 ， 会 越 来 越 复 杂 ， 所 以 几乎 不 可 能 实时 得 到 管 
道 的 操作 结果 。 
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7.3 MapReduce 


MapReduce 是 聚合 工具 中 的 明星 ， 它 非常 强大 、 非 常 灵活 。 有 些 问 题 过 于 复杂 ， 无 
法 使 用 聚合 框架 的 查询 语言 来 表达 ， 这 时 可 以 使 用 MapReduce。MapReduce 使 用 
JavaScript 作为 “查询 语言 "， 因 此 它 能 够 表达 任意 复杂 的 逻辑 。 然 而 ， 这 种 强大 是 
有 代价 的 : MapReduce 非常 慢 ， 不 应 该 用 在 实时 的 数据 分 析 中 。 


MapReduce 能 够 在 多 台 服 务 器 之 间 并 行 执行 。 它 会 将 一 个 大 问题 拆 分 为 多 个 小 问 
题 ， 将 各 个 小 问题 发 送 到 不 同 的 机 器 上 ， 每 台 机 器 只 负责 完成 一 部 分 工作 。 所 有 机 
器 都 完成 时 ， 再 将 这 些 零碎 的 解决 方案 合并 为 一 个 完整 的 解决 方案 。 


MapReduce 需要 几 个 步骤 。 最 开始 是 映射 (map)， 将 操作 映射 到 集合 中 的 每 个 文 
档 。 这 个 操作 要 么 “无 作为 >， 要 么 “产生 一 些 键 和 式 个 值 ”。 然 后 就 是 中 间 环 节 ， 
称 作 洗 牌 (shuffle)， 按 照 键 分 组 ， 并 将 产生 的 键 值 组 成 列表 放 到 对 应 的 键 中 。 化 简 
(reduce) 则 把 列表 中 的 值 化 简 成 一 个 单 值 。 这 个 值 被 返回 ， 然 后 接着 进行 洗 牌 ， 直 
到 每 个 键 的 列表 只 有 一 个 值 为 止 ， 这 个 值 也 就 是 最 终结 果 。 


下 面 会 多 举 几 个 MapReduce 的 例子 ， 这 个 工具 非常 强大 ， 但 也 有 点 复杂 。 


7.3.1 示例 1: 找 出 集合 中 的 所 有 键 

用 MapReduce 来 解决 这 个 问题 有 点 大 材 小 用 ， 不 过 还 是 一 种 了 解 其 机 制 的 不 错 的 
方式 。 要 是 已 经 知道 MapReduce 的 原理 ， 则 直接 跳 到 本 节 最 后 ， 看 看 MongoDB 中 
MapReduce 的 使 用 注意 事项 。 


MongoDB 会 假设 你 的 模式 是 动态 的 ， 所 以 并 不 跟踪 记录 每 个 文档 中 的 键 。 通 常 找 
到 集合 中 所 有 文档 所 有 键 的 最 好 方式 就 是 用 MapReduce。 在 本 例 中 ， 会 记录 每 个 键 
出 现 了 多 少 次 。 内 航 文 档 中 的 键 就 不 计算 了 ， 但 给 map 函数 做 个 简单 修改 就 能 实现 
这 个 功能 


在 映射 环节 ， 我 们 希望 得 到 集合 中 每 个 文档 的 所 有 键 。map 函数 使 用 特别 的 emit 
函数 “返回 ”要 处 理 的 值 。emit 会 给 MapReduce 一 个 键 (类 似 于 前 面 $group 所 
使 用 的 键 ) 和 一 个 值 。 这 里 用 emit 将 文档 某 个 键 的 计数 (count) 返回 ({count : 
1} )。 我 们 想 为 每 个 键 单独 计数 ， 所 以 为 文档 中 的 每 个 键 调用 一 次 emit。this 就 
是 当前 映射 文档 的 引用 : 






























































> map = function() { 
.. for (var key in this) { 
emit(key, {count : 1}); 
.. }}; 








这 样 就 有 了 许 许 多 多 {count : 1} 文 档 ， 每 一 个 都 与 集合 中 的 一 个 键 相 关 。 这 种 
由 一 个 或 多 个 {count : 1} 文档 组 成 的 数组 ， 会 传递 给 reduce 国 数 。reduce 国 
数 有 两 个 参数 ， 一 个 是 key， 也 就 是 emit 返回 的 第 一 个 值 ， 还 有 另外 一 个 数组 ， 
由 一 个 或 者 多 个 与 键 对 应 的 {count : 1} 文档 组 成 。 
> reduce = function(key, emits) { 
. total = 0; 


. for (var i in emits) { 
total += emits[i].count; 








人 
. return {"count" : total}; 
vo 
reduce 一定 要 能 够 在 之 前 的 map 阶段 或 者 前 一 个 reduce 阶段 的 结果 上 反复 执行 。 
所 以 reduce 返回 的 文档 必须 能 作为 reduce 的 第 二 个 参数 的 一 个 元 素 。 例 如 ，x 键 
映射 到 了 3 个 文档 {count : 1, id : 1}、 {count : 1, id : 2} 和 {count 
1，id : 3},， 其 中 id 键 只 用 于 区 分 不 同 的 文档 。MongoDB 可 能 会 这 样 调用 reduce: 


> rl = reduce("x", [{count : 1, id : 1}, {count : 1, id : 2}]) 


























{count : 2} 

> r2 = reduce("x", [{count : 1, id : 3}]) 

{count : 1} 

> reduce("x", [rl, r2]) 

{count : 3} 
ek 个 参数 总 是 初始 文档 之 一 (比如 {count : 1}) 或 者 长 度 固定 。 
reduce 应 该 能 处 理 emit 文档 和 其 他 reduce 返回 结果 的 各 种 组 合 





总 之 ，MapReduce 函数 可 能 会 是 下 面 这 样 : 


> mr = db.runCommand({"mapreduce" : "foo", "map" : map, "reduce" : reduce}) 
‘ 
"result" : "tmp.mr.mapreduce 1266787811 1", 
"timeMillis" : 12, 
"counts" : { 
"input" : 6 
"emit" : 14 
"output" : 5 
}, 
"ok" : true 
3 
MapReduce 返回 的 文档 包含 很 多 与 操作 有 关 的 元 信息 。 
。 "result" : "tmp.mr.mapreduce 1266787811 1" 


这 是 存放 MapReduce 结果 的 集合 名 。 这 是 个 临时 集合 ，MapReduce 的 连接 关闭 
后 它 就 被 自动 删除 了 。 本 章 稍 后 会 介绍 如 何 指定 一 个 好 一 点 的 名 字 以 及 将 结果 集 
合 持久 化 。 





。 "timeMillis" : 12 
操作 花费 的 时 间 ， 单 位 是 毫秒 。 


。 "counts" : { ...} 


这 个 内 嵌 文 档 主要 用 作 调 试 ， 其 中 包含 3 个 键 。 





+ "input" : 6 
发 送 到 map 函数 的 文档 个 数 。 


» "emit" : 14 


在 map 函数 中 emit 被 调用 的 次 数 。 


4 "output" :; 5 
结果 集合 中 的 文档 数量 。 


对 结果 集合 进行 查询 会 发 现 原 有 和 集合 的 所 有 和 键 及 其 计数 : 


> db[mr.result].find() 












































{ "id" : "id", "value" : { "count" : 6 }} 

{ "id" : "a", "value" : { "count" : 4}} 

{ "id" : "b", "value" : { "count" : 2}} 

{ "id" : "x", "value" : { "count" : 1 }} 

{ id" :wy "value" : { "count" : 1 }} 
这 个 结果 集中 的 每 个 " id" 对 应 原 集合 中 的 一 个 键 ，"value" 键 的 值 就 是 reduce 
的 最 终结 果 。 











7.3.2 示例 2: 网 页 分 类 

假设 有 个 网 站 ， 人 们 可 以 提交 其 他 网 页 的 链接 ， 比 如 reddit (http://www.reddit. 
com)。 提 交 者 可 以 给 这 个 链接 添加 标签 ， 表明 主题 ， 比 如 politics、geek 或 者 
icanhascheezburger。 可 以 用 MapReduce 找 出 哪个 主题 最 为 热门 ， 热 门 与 否 由 最 近 
的 投票 决定 。 


首先 ， 建 立 一 个 map 函数 ， 发 出 (emit) 标签 和 一 个 基于 流行 度 和 新 旧 程 度 的 值 。 











map = function() { 
for (var i in this.tags) { 
var recency = 1/(new Date() - this.date); 
var Score = recency * this.score; 


emit(this.tags[i], {"urls" : [this.url], "score" : score}); 





现在 就 化 简 同 一 个 标签 的 所 有 值 ， 以 得 到 这 个 标签 的 分 数 : 


reduce = function(key, emits) { 
var total = {urls : [], score : 0} 
for (var i in emits) { 
emits[i].urls.forEach(function(url) { 
total.urls.push(url); 
} 


total.score += emits[i].score; 
} 
return total; 


}; 


最 终 的 集合 包含 每 个 标签 的 URL 列表 和 表示 该 标签 流行 程度 的 分 数 。 


7.3.3 MongoDB 和 MapReduce 
前 面 两 个 例子 只 用 到 了 mapreduce、map 和 reduce 键 。 这 3 个 键 是 必需 的 ， 但 是 
MapReduce 命令 还 有 很 多 可 选 的 键 。 


。 "finalize" : function 
可 以 将 reduce 的 结果 发 送 给 这 个 键 ， 这 是 整个 处 理 过 程 的 最 后 一 步 。 





。 "keeptemp" : boolean 


如 果 为 值 为 true， 那 么 在 连接 关闭 时 会 将 临时 结果 集合 保存 下 来 ， 否 则 不 保存 。 





。 "out" :; string 
输出 集合 的 名 称 。 如 果 设 置 了 这 选项 ， 系 统 会 自动 设置 keeptemp : true。 





。 "query" : document 


在 发 往 map 函数 前 ， 先 用 指定 条 件 过 滤 文 档 。 


。 "sort" : document 


在 发 往 map 前 先 给 文档 排序 (与 Limit 一 同 使 用 非常 有 用 )。 





。 "limit" : integer 
发 往 map 函数 的 文档 数量 的 上 限 。 


。 "scope" : document 
可 以 在 JavaScript 代码 中 使 用 的 变量 。 


。 ee : boolean 


否 记录 详细 的 服务 器 日 志 。 
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1. finalize 函 数 
和 group 命令 一 样 ，MapReduce 也 可 以 使 用 finalize 国 数 作为 参数 。 它 会 在 最 后 
一 个 reduce 输出 结果 后 执行 ， 然 后 将 结果 存 到 临时 集合 中 。 


返回 体积 比较 大 的 结果 集 对 MapReduce 不 是 什么 大 不 了 的 事情 ， 因 为 它 不 像 group 
那样 有 4 MB 的 限制 。 然 而 ， 信 息 总 是 要 传递 出 去 的 ， 通 常 来 说 ，finaLize 是 计 
算 平 均 数 、 裁 前 数组、 清除 多 余 信息 的 好 时 机 。 


2. 保存 结果 集合 

默认 情况 下 ，Mongo 会 在 执行 MapReduce 时 创建 一 个 临时 集合 ， 集 合 名 是 系统 
选 的 一 个 不 太 常 用 的 名 字 ， 将 "mr"、 执 行 MapReduce 的 集合 名 、 时 间 惟 以 及 数 
据 库 作 业 ID， 用 “.” 连 成 一 个 字符 串 ， 这 就 是 临时 集合 的 名 字 。 结 果 产 生 形 如 
mr.stuff.18234210220.2 这 样 的 名 字 。MongoDB 会 在 调用 的 连接 关闭 时 自动 销毁 这 
个 集合 (也 可 以 在 用 完 之 后 手动 删除 )。 如 果 和 希望 保存 这 个 集合 ， 就 要 将 keeptemp 
选项 指定 为 true。 


如 果 要 经 常 使 用 这 个 临时 集合 ， 你 可 能 想 给 它 起 个 好 点 的 名 字 。 利 用 out 选项 
(该 选项 接受 字符 串 作 为 参数 ) 就 可 以 为 临时 集合 指定 一 个 易 读 易 懂 的 名 字 。 如 
果 用 了 out 选项 ， 就 不 必 指 定 keeptemp : true 了 ， 因 为 指定 out 选项 时 系统 
会 将 keeptemp 设置 为 true。 即 便 你 取 了 一 个 非常 好 的 名 字 ，MongoDB 也 会 在 
MapReduce 的 中 间 过 程 使 用 自动 生成 的 集合 名 。 处 理 完 成 后 ， 会 自动 将 临时 集合 的 
名 字 更 改 为 你 指定 的 集合 名 ， 这 个 重 命名 的 过 程 是 原子 性 的 。 也 就 是 说 ， 如 果 多 次 
对 同一 个 集合 调用 MapReduce， 也 不 会 在 操作 中 遇 到 集合 不 完整 的 情况 。 


MapReduce 产生 的 集合 就 是 一 个 普通 的 集合 ， 在 这 个 集合 上 执行 MapReduce 完全 
没有 问题 ， 或 者 在 前 一 个 MapReduce 的 结果 上 执行 MapReduce 也 没有 问题 ， 如 此 
往复 直到 无 穷 都 设 问 题 ! 


3. 对 文档 子 集 执 行 MapReduce 

有 时 需要 对 集合 的 一 部 分 执行 MapReduce。 只 需 在 传 给 map 函数 前 使 用 查询 对 文档 
进行 过 滤 就 好 了 。 

每 个 传递 给 map 函数 的 文档 都 要 先 反 序列 化 ， 从 BSON 对 象 转换 为 JavaScript 
对 象 ， 这 个 过 程 非常 耗 时 。 如 果 事 先知 道 只 需要 对 集合 的 一 部 分 文档 执行 
MapReduce， 那 么 在 map 之 前 先 对 文档 进行 过 滤 可 以 极 大 地 提高 map 速度 。 可 以 通 
过 "query"、"Limit"” 和 "sort" 等 键 对 文档 进行 过 滤 。 


"query" 键 的 值 是 一 个 查询 文档 。 通 常 查询 返回 的 结果 会 传递 给 map 函数 。 例 如 ， 
有 一 个 做 跟踪 分 析 的 应 用 程序 ， 现 在 我 们 需要 上 周 的 总 结 摘要 ， 只 要 使 用 如 下 命令 
























































对 上 周 的 文档 执行 MapReduce 就 好 了 : 


> db.runCommand({"mapreduce" : "analytics", "map" : map, "reduce" : reduce, 
"query" : {"date" : {"$gt" : week ago}}}) 


sort 选项 和 Limit 一 起 使 用 时 通常 能 够 发 挥 非常 大 的 作用 。Limit 也 可 以 单独 使 
用 ， 用 来 截取 一 部 分 文档 发 送 给 map 国 数 。 





如 果 在 上 个 例子 中 想 分 析 最 近 10 000 个 页 面 的 访问 次 数 (而 不 是 最 近 一 周 的 )， 就 
可 以 使 用 Limit 和 sort: 
> db.runCommand({"mapreduce" : "analytics", "map" : map, "reduce" : reduce, 
"limit" : 10000, "sort" : {"date" : -1}}) 




















duery、Limit、sort 可 以 随意 组 合 ， 但 是 如 果 不 使 用 Limit 的 话 ，sort 就 不 能 
有 效 发 挥 作用 。 


4. 使 用 作用 域 

MapReduce 可 以 为 map、reduce、finalize 函数 都 采用 一 种 代码 类 型 。 但 多 数 语 
言 里 ， 可 以 指定 传递 代码 的 作用 域 。 然 而 MapReduce 会 忽略 这 个 作用 域 。 J 
的 作用 域 键 Re 如 果 想 在 MapReduce 中 使 用 客户 端 央 的 值 ， 则 必须 使 用 这 
参数 。 可 以 用 “变量 名 : 值 ” 这 样 的 普通 文档 来 设置 该 选项 ， 然 后 在 map、 
和 finalize 国 数 中 就 能 使 用 了 。 作 用 域 在 这 些 函 数 内 部 是 不 变 的 。 例 如 ， 上 一 节 
的 例子 使 用 es - this.date) 计算 页 面 的 新 旧 程 度 。 可 以 将 当前 日 期 
作为 作用 域 的 一 部 分 传递 
































> db.runCommand({"mapreduce" : "webpages", "map" : map, "reduce" : reduce, 
"scope" : {now : new Date()}}) 


这 样 ， 在 map 函数 中 就 能 计算 1/ (now - this.date) 了 。 


5. 获得 更 多 的 输出 
还 有 个 用 于 调试 的 详细 输出 选项 。 如 果 想 看 看 MapReduce 的 运行 过 程 ， 可 以 将 


"verbose" 指定 为 true。 





也 可 以 用 print 把 map、reduce、finalize 过 程 中 的 信息 输出 到 服务 器 日 志 上 。 
7.4 ”聚合 命令 


MongoDB 为 在 集合 上 执行 基本 的 聚合 任务 提供 了 一 些 命令 。 这 些 命 令 在 聚合 框架 
出 现 之 前 就 已 经 存在 了 ， 现 在 (大 多 数 情况 下 ) 已 经 被 聚合 框架 取代 。 然 而 ， 复 杂 
的 group 操作 可 能 仍然 需要 使 用 JavaScript，count 和 distinct 操作 可 以 被 简化 
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为 普通 命令 ， 不 需要 使 用 聚合 框架 。 


7.4.1 count 
count 是 最 简单 的 聚合 工具 ， 用 于 返回 集合 中 的 文档 数量 : 





> db.foo.count() 

0 

> db.foo.insert({"x" : 1}) 
> db.foo.count() 

1 


不 论 集合 有 多 大 ，count 都 会 很 快 返回 总 的 文档 数量 。 

也 可 以 给 count 传递 一 个 查询 文档 ，Mongo 会 计算 查询 结果 的 数量 : 
> db.foo.insert({"x" : 2}) 
> db.foo.count() 
2 


> db.foo.count({"x" : 1}) 
1 


对 分 页 显示 来 说 总 数 非常 必要 :“ 共 439 个 ， 目 前 显示 0~10 个 ”。 但 是 ， 增 加 查 
询 条 件 会 使 count 变 慢 。count 可 以 使 用 索引 ， 但 是 索引 并 没有 足够 的 元 数据 供 
count 使 用 ， 所 以 不 如 直接 使 用 查询 来 得 快 。 


7.4.2 distinct 
distinct 用 来 找 出 给 定 键 的 所 有 不 同 值 。 使 用 时 必须 指定 集合 和 键 。 





> db.runCommand({"distinct" : "people", "key" : "age"}) 


假设 集合 中 有 如 下 文档 : 


{"name" : "Ada", "age" : 20} 

{"name" : "Fred", "age" : 35} 
{"name" : "Susan", "age" : 60} 
{"name" : "Andy", "age" : 35} 


如 果 对 "age" 键 使 用 distinct， 会 得 到 所 有 不 同 的 年 龄 : 


> db.runCommand({"distinct" : "people", "key" : "age"}) 
{"values" : [20, 35, 60], "ok"” : 1} 


这 里 还 有 一 个 常见 问题 : 有 没有 办 法 获得 集合 里 面 所 有 不 同 的 键 呢 ? MongoDB 并 
没有 直接 提供 这 样 的 功能 ， 但 是 可 以 用 MapReduce 〈 详 见 7.3 节 ) 自己 写 一 个 。 





7.4.3 group 
使 用 group 可 以 执行 更 复杂 的 聚合 。 先 选 定 分 组 所 依据 的 键 ， 而 后 MongoDB 就 会 
将 集合 依据 选 定 键 的 不 同 值 分 成 若干 组 。 然 后 可 以 对 每 一 个 分 组 内 的 文档 进行 聚合 ， 
得 到 一 个 结果 文档 。 


六 
av 如 果 你 熟悉 SQL， 那 么 这 个 group 和 SQL 中 的 GROUP BY 差不多 。 
~ 





假设 现在 有 个 跟踪 股票 价格 的 站 点 。 从 上 午 10 点 到 下 午 4 点 每 隔 几 分 钟 就 会 更 新 某 
只 股票 的 价格 ， 并 保存 在 MongoDB 中 。 现 在 报表 程序 要 获得 近 30 天 的 收盘 价 。 用 
group 就 可 以 轻松 办 到 。 


股价 集合 中 包含 数 以 千 计 如 下 形式 的 文档 : 





{"day"” : "2010/10/03", "time" : "10/3/2010 03:57:01 GMT-400", "price" : 4.23} 
{"day"” : "2010/10/04", "time" : "10/4/2010 11:28:39 GMT-400", "price" : 4.27} 
{"day” : "2010/10/03", "time" : "10/3/2010 05:00:23 GMT-400", "price" : 4.10} 
{"day"” : "2010/10/06", "time" : "10/6/2010 05:27:58 GMT-400", "price" : 4.30} 
{"day"” : "2010/10/04", "time" : "10/4/2010 08:34:50 GMT-400", "price" : 4.01} 


注意 ， 由 于 精度 的 问题 ， 实 际 使 用 中 不 要 将 金额 以 浮 点 数 的 方式 存储 ， 这 
心 个 例子 只 是 为 了 简便 才 这 么 做 。 


pet 
es 


人， 
我 们 需要 的 结果 列表 中 应 该 包含 每 天 的 最 后 交易 时 间 和 价格 ， 就 像 下 面 这 样 : 


[ 














{"time" : "10/3/2010 05:00:23 GMT-400", "price" : 4.10}, 
{"time" : "10/4/2010 11:28:39 GMT-400", "price" : 4.27}, 
{"time" : "10/6/2010 05:27:58 GMT-400", "price" : 4.30} 


] 


先 把 集合 按照 "day" 字段 进行 分 组 ， 然 后 在 每 个 分 组 中 查找 "time" 值 最 大 的 文 
档 ， 将 其 添加 到 结果 集中 就 完成 了 。 整 个 过 程 如 下 所 示 : 





> db.runCommand({"group" : { 


"ns" : "stocks", 
"key" : "day", 
"initial" : {"time" : 0}, 
. "$reduce" : function(doc, prev) { 


if (doc.time > prev.time) { 
prev.price = doc.price; 
prev.time = doc.time; 


a } 
. }}}) 





命令 分 解 开 看 看 。 
: "stocks" 
J 分 组 的 集合 。 


。 "key" : "day" 
指定 文档 分 组 依据 的 键 。 这 里 就 是 
一 组 。 





: {"time" : 0O} 


。 "jnitial" 


每 一 组 reduce 国 数 调用 中 的 初始 "time" 值 ， 


每 一 组 的 所 有 成 员 都 会 使 用 这 个 累加 器 


。 "$reduce" : function(doc, prev) { ， 
这 个 函数 会 在 集合 内 的 每 个 文档 上 执行 。 
器 文档 (本 组 当前 的 结果 )。 
累加 器 的 时 间 。 
当前 文档 的 值 。 
的 命令 会 使 用 同一 个 累加 器 


在 问题 一 开始 的 描述 中 ， 就 提 到 只 














个 集合 。 这 就 是 要 添加 "condition" 的 原因 ， 
行 处 理 。 
> db.runCommand({"group" : { 
"nS" "stocks", 
"key" "day", 
"initial" : {"time" : 0}, 
"$reduce" : function(doc, prev) { 


if (doc.time > prev.time) { 
prev.price = doc.price; 
prev.time = doc.time; 





"day" 键 。 


系 入 
本 例 中 ， 想 让 reduce 函数 比较 当前 文档 的 时 间 和 
如 果 当 前 文档 的 时 间 更 晚 一 些 ， 
别 忘 了 ， 每 一 组 都 有 一 个 独立 的 累加 器 


要 最 近 30 天 的 股价 。 


所 有 "day" 值 相同 的 文档 被 分 到 


会 作为 初始 文档 传递 给 后 续 过 程 。 





， 所 以 它 的 任何 变化 都 可 以 保存 下 来 。 


} 
会 传递 单 两 个 参数 : 当前 文档 和 累加 


则 将 累加 器 的 日 期 和 价格 替换 为 
， 所 以 不 必 担 心 不 同 日 期 


然而 ， 我 们 在 这 里 迭代 了 整 





因为 这 样 就 可 以 只 对 必要 的 文档 进 











其实 和 "condition" 键 是 完 
好 Ys 





}}, 
"condition" : {"day" : {"$gt" "2010/09/30"}} 
. }}) 
Es 马 ， 
全 有 些 参考 资料 提 及 "cond '" 键 或 者 "q" 键 ， 
4S 一 样 的 (就 是 表达 力 不 如 "condition" 
“4 





最 后 就 会 返回 一 个 包含 30 个 文档 的 数组 ， 甚 实 每 个 文档 都 是 一 个 分 组 。 每 组 都 包含 


分 组 依据 的 键 (这 里 就 是 "day" 


文档 不 存在 指定 用 于 分 组 的 键 ， 这 些 文档 会 


string) 以 及 这 组 最 终 的 prev 值 。 如 果 有 的 
被 单独 分 为 一 组 ， 缺 失 的 键 会 使 用 "day 





nutll" 这 样 的 形式 。 在 "condition" 中 加 入 "day" : {"$exists" : true} 
就 可 以 排除 不 包含 指定 用 于 分 组 的 键 的 文档 。group 命令 同时 返回 了 用 到 的 文档 总 
数 和 "key" 的 不 同 值 数 量 : 





> db.runComma 








nd({"group™ YY {ssa}) 


"day"” : "2010/10/04", 
"time" : "Mon Oct 04 2010 11:28:39 GMT-0400 (EST)" 
"price" : 4.27 
}, 
734, 
30, 


"retval" : 
[ 
{ 
ly 
count" 
"keys 
"OKk" 1 
} 


这 里 每 组 的 "price" 都 是 显 式 设置 的 ,，"time" 先 由 初始 化 器 设置 ， 然 后 在 返 代 


中 进行 更 新 。"d 


ay" 是 默认 被 加 进去 的 ， 因 为 用 于 分 组 的 键 会 默认 加 入 到 每 个 


"retval" 内 向 文档 中 。 要 是 不 想 在 结果 集中 看 到 这 个 键 ， 可 以 用 完成 器 将 累加 器 
文档 变 为 任何 想 要 的 形态 ， 甚 至 变换 成 非 文档 〈 例 如 数字 或 字符 串 ) 。 





1. 使 用 完成 器 


完成 器 (finalizer) 用 于 精简 从 数据 库 传 到 用 户 的 数据 ， 这 个 步骤 非常 重要 ， 因 为 
group 命令 的 输出 结果 需要 能 够 通过 单 次 数据 库 响 应 返回 给 用 户 。 为 进一步 说 明 ， 
这 里 举 个 博客 的 例子 ， 其 中 每 篇 文章 都 有 多 个 标签 (tag)。 现 在 要 找 出 每 天 最 热门 
的 标签 。 可 以 (再 一 次 ) 按 天 分 组 ， 得 到 每 一 个 标签 的 计数 。 就 像 下 面 这 样 : 


> db.posts.gr 
skKey”.s 4 


a TNTtialY 


. "$reduce" 
for ( 


} 
} 


i 下 
. }}) 











oup({ 

"day" : true}, 

{"tags" : {}}, 

: function(doc, prev) { 

i in doc.tags) { 

f (doc.tags[i] in prev.tags) { 
prev.tags[doc.tags[i]]++; 

else { 
prev.tags[doc.tags[i]] = 1; 


得 到 的 结果 如 下 所 示 : 


[ 
{"day" : 


"2010/01/12", "tags" : {"nosql" : 4, "winter" : 10, "sledding" : 2}}, 
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{"day" : "2010/01/13", "tags" : {"soda" : 5, "php" : 2}}, 
{"day" : "2010/01/14", "tags" : {"python" : 6, "winter" : 4, "nosql": 15}} 
] 


接着 可 以 在 客户 端 找 出 "tags" 文档 中 出 现 次 数 最 多 的 标签 。 然 而 ， 向 客户 端 发 送 
每 天 所 有 的 标签 文档 需要 许多 额外 的 开销 一 一 每 天 所 有 的 键 / 值 对 都 被 传送 给 用 户 ， 
而 我 们 需要 的 仅仅 是 一 个 字符 串 。 这 也 就 是 group 有 一 个 可 选 的 "finalLize" 键 
的 原因 。"finalize" 可 以 包含 一 个 函数 ， 在 每 组 结果 传递 到 客户 端 之 前 调用 一 次 。 
可 以 使 用 "finalize" 函数 将 不 需要 的 内 容 从 结果 集中 移 除 : 











> db.runCommand({"group" : { 
"ns" :; "posts", 
"key" : {"day" : true}, 
"Tnitial, {tags ® {}}s 
"$reduce" : function(doc, prev) { 
for (i in doc.tags) { 
if (doc.tags[i] in prev.tags) { 
prev.tags[doc.tags[i]]++; 
} else { 
prev.tags[doc.tags[i]] = 1; 
} 
}, 
"finalize" : function(prev) { 
var mostPopular = 0; 
for (i in prev.tags) { 
if (prev.tags[i] > mostPopular) { 
prev.tag = i; 
mostPopular = prev.tags[il]; 
} 
} 
delete prev.tags 


... }}}) 


现在 ， 我 们 就 得 到 了 想 要 的 信息 ， 服 务 器 返回 的 内 容 可 能 如 下 : 








[ 


{"day" : "2010/01/12", "tag" : "winter"}, 
{"day" : "2010/01/13", "tag" : "soda"}, 
{"day" : "2010/01/14", "tag" : "nosql"} 


] 
finalize 可 以 对 传递 进来 的 参数 进行 修改 ， 也 可 以 返回 一 个 新 值 。 


2. 将 函数 作为 键 使 用 

有 时 分 组 所 依据 的 条 件 可 能 会 非常 复杂 ， 而 不 是 单个 键 。 比 如 要 使 用 group 计算 每 
个 类 别 有 多 少 篇 博客 文章 〈 每 篇 文章 只 属于 一 个 类 别 ) 。 由 于 不 同 作者 的 风格 不 同 ， 
填写 分 类 名 称 时 可 能 有 人 使 用 大 写 也 有 人 使 用 小 写 。 所 以 ， 如 果 要 是 按 类 别名 来 分 
组 ， 最 后 “MongoDB” 和 “mongodb” 就 是 两 个 完全 不 同 的 组 。 为 了 消除 这 种 大 小 

















写 的 影响 ， 就 要 定义 一 个 国 数 来 决定 文档 分 组 所 依据 的 键 。 


定义 分 组 函数 就 要 用 到 $keyf 键 (注意 不 是 "key")， 使 用 "$keyf" 的 group 命令 
如 下 所 示 : 


> db.posts.group({"ns" : "posts", 
. "$keyf" : function(x) { return x.category.toLowerCase(); }, 
. "initializer" : ... }) 


有 了 "$keyf"， 就 能 依据 各 种 复杂 的 条 件 进 行 分 组 了 。 
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第 8 和 章 


应 用 程序 设计 





本 章 介绍 如 何 设计 应 用 程序 ， 以 便 更 好 地 使 用 MongoDB， 内 容 包 括 : 


。 内 岁数 据 和 引用 数据 之 间 的 权衡 ， 

。 优化 技巧 ; 

。 数据 一 致 性 ， 

。 模式 迁移 ， 

。 不 适合 使 用 MongoDB 作为 数据 存储 的 场景 。 


8.1 ”范式 化 与 反 范 式 化 

数据 表示 的 方式 有 很 多 种 ， 其 中 最 重要 的 问题 之 一 就 是 在 多 大 程度 上 对 数据 进行 范 
式 化 。 范 式 化 (normalization) 是 将 数据 分 散 到 多 个 不 同 的 集合 ， 不 同 集合 之 间 可 
以 相互 引用 数据 。 虽 然 很 多 文档 可 以 引用 某 一 块 数据 ， 但 是 这 块 数据 只 存储 在 一 个 
集合 中 。 所 以 ， 如 果 要 修改 这 块 数据 ， 只 需 修改 保存 这 块 数据 的 那 一 个 文档 就 行 了 。 
但 是 ，MongoDB 没有 提供 连接 (join) 工具 ， 所 以 在 不 同 集合 之 间 执 行 连接 查询 需 
要 进行 多 次 查询 。 

反 范式 化 (denormalization) 与 范式 化 相反 : 将 每 个 文档 所 需 的 数据 都 戏 入 在 文档 
内 部 。 每 个 文档 都 拥有 自己 的 数据 副本 ， 而 不 是 所 以 文档 共同 引用 同一 个 数据 副本 。 
这 意味 着 ， 如 果 信 息 发 生 了 变化 ， 那 么 所 有 相关 文档 都 需要 进行 更 新 ， 但 是 在 执行 
查询 时 ， 只 需要 一 次 查询 ， 就 可 以 得 到 所 有 数据 。 
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决定 何 时 采用 范式 化 何 时 采用 反 范 式 化 是 比较 困难 的 。 范 式 化 能 够 提高 数据 写 人 速 
度 ， 反 范式 化 能 够 提高 数据 读 取 速 度 。 需 要 根据 自己 应 用 程序 的 实际 需要 仔细 权衡 。 


8.1.1 数据 表示 的 例子 

假设 要 保存 学 生 和 课程 信息 。 一 种 表示 方式 是 使 用 一 个 students 集合 (每 个 学 
生 是 一 个 文档 ) 和 一 个 classes 集合 (每 门 课程 是 一 个 文档 )。 然 后 用 第 三 个 集合 
studentClasses 保存 学 生 和 课程 之 间 的 联系 。 











> db.studentClasses.findOne({"studentId" : id}) 
{ 
"_id" : ObjectId("512512c1d86041c7dca81915")，, 
"studentId" : ObjectId("512512a5d86041c7dca81914")， 
"classes" : [ 
ObjectId("512512ced86041c7dca81916")， 
ObjectId("512512dcd86041c7dca81917")， 
ObjectId("512512e6d86041c7dca81918")， 
ObjectId("512512f0d86041c7dca81919") 


} 


如 果 比 较 熟 悉 关 系 型 数据 库 ， 可 能 你 之 前 见 过 这 种 类 型 的 表 连 接 ， 虽 然 你 的 每 个 结 
果 文 档 中 可 能 只 有 一 个 学 生 和 一 门 课程 (而 不 是 一 个 课程 "id" 列表 )。 将 课程 放 
在 数组 中 ， 这 有 点 儿 MongoDB 的 风格 ， 不 过 实际 上 通常 不 会 这 么 保存 数据 ， 因 为 
要 经 历 很 多 次 查询 才能 得 到 真实 信息 。 

假设 要 找到 一 个 学 生 所 选 的 课程 。 需 要 先 查 找 students 集合 找到 学 生 信息 ， 然 后 查 
询 studentClasses 找到 课程 " id"， 最 后 再 查询 classes 集合 才能 得 到 想 要 的 信息 。 
为 了 找 出 课程 信息 ， 需 要 向 服务 器 请 求 三 次 查询 。 很 可 能 你 并 不 想 在 MongoDB 中 
用 这 种 数据 组 织 方式 ， 除 非 学 生 信息 和 课程 信息 经 常 发 生变 化 ， 而 且 对 数据 读 取 速 
度 也 没有 要 求 。 

如 果 将 课程 引用 嵌入 在 学 生 文档 中 ， 就 可 以 节省 一 次 查询 : 


{ 





























"_ id" : ObjectId("512512a5d86041c7dca81914")， 

"name" : "John Doe", 

"classes" : [ 
ObjectId("512512ced86041c7dca81916")， 
ObjectId("512512dcd86041c7dca81917")， 
ObjectId("512512e6d86041c7dca81918")， 
ObjectId("512512f0d86041c7dca81919") 


. 


"classes" 字段 是 一 个 数组 ， 其 中 保存 了 John Doe 需要 上 的 课程 "id"。 需 要 找 
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出 这 些 课程 的 信息 时 ， 就 可 以 使 用 这 些 " id" 查询 classes 集合 。 这 个 过 程 只 需要 
两 次 查询 。 如 果 数 据 不 需要 随时 访问 也 不 会 随时 发 生变 化 〈《“ 随 时 ” 比 “ 经 ? 求 
更 高 )， 那 么 这 种 数据 组 织 方 式 是 非常 好 的 。 

如 果 需 要 进一步 优化 读 取 速度 ， 可 以 将 数据 完全 反 范 式 化 ， 将 课程 信息 作为 内 向 文 


档 保 存 到 学 生 文 档 的 "classes" 字段 中 ， 这 样 只 需要 一 次 查询 就 可 以 得 到 学 生 的 课 
程 信息 了 











{ 
"_id" : ObjectId("512512a5d86041c7dca81914")， 
"name" : "John Doe", 
"classes" : [ 
{ 
"class" : "Trigonometry", 
"credits" : 3, 
"room" : "204" 
}, 
{ 
"class" : "Physics", 
"credits" :; 3, 
"room" : "159" 
}, 
{ 
"class" : "Women in Literature", 
"credits" :; 3, 
"room"” : "14b" 
}, 
{ 
"class" : "AP European History", 
"credits" :; 4, 
"room" :; "321" 
} 
] 
} 


上 面 这 种 方式 的 优点 是 只 需要 一 次 查询 就 可 以 得 到 学 生 的 课程 信息 ， 缺 点 是 会 占用 
更 多 的 存储 空间 ， 而 且 数 据 同步 更 困难 。 例 如 ， 如 果 物 理学 的 学 分 变 成 了 4 分 (不 
再 是 3 分 )， 那 么 选修 了 物理 学 课程 的 每 个 学 生 文档 都 需要 更 新 ， 而 不 只 是 更 新 
“Physics” 文 档 。 














最 后 ， 也 可 以 混合 使 用 内 髓 数据 和 引用 数据 : 创建 一 个 子 文档 数组 用 于 保存 常用 信 
息 ， 需 要 查询 更 详细 信息 时 通过 引用 找到 实际 的 文档 : 























{ 
"_id" : ObjectId("512512a5d86041c7dca81914")， 
"name" : "John Doe", 
"classes"” : [ 
{ 


"_id" : ObjectId("512512ced86041c7dca81916")， 
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"class" : "Trigonometry" 








}, 
{ 
"_id" : ObjectId("512512dcd86041c7dca81917")， 
"class" : "Physics" 
}, 
{ 
"_id" : 0bjectId("512512e6d86041c7dca81918" ) ， 
"class" : "Women in Literature" 
}, 
{ 
"_id" : ObjectId("512512f0d86041c7dca81919")， 
"class" : "AP European History" 
} 
] 
} 
这 种 方式 也 是 不 错 的 选择 ， 因 为 内 骨 的 信息 可 以 随 着 需求 的 变化 进行 修改 : 如 果 和 希 
望 在 一 个 页 面 中 包含 更 多 (或 者 更 少 ) 的 信息 ， 就 可 以 将 更 多 (或 者 更 少 ) 的 信息 
放 在 内 肯 文 档 中 。 

















需要 考虑 的 另 一 个 重要 问题 是 ， 信 息 更 新 更 频 紧 还 是 信息 读 取 更 频繁 ? 如果 这 些 数 
会 定期 更 新 ， 那 么 范式 化 是 比较 好 的 选择 。 如 果 数 据 变化 不 频 冤 ， 为 了 优化 更 新 
效率 而 牺牲 读 取 效率 就 不 值得 了 。 


例如 ， 教 科 书 上 介绍 范式 化 的 一 个 例子 可 能 是 将 用 户 和 用 户 地 址 保存 在 不 同 的 集 
合 中 。 但 是 ， 人 们 几乎 不 会 改变 住址 ， 所 以 不 应 该 为 了 这 种 概率 极 小 的 情况 ( 某 人 
改变 了 住址 ) 而 悟性 每 一 次 查询 的 效率 。 在 这 种 情景 下 ， 应 该 将 地 址 内 风 在 用 户 文 
档 中 。 


如 果 决 定 使 用 内 舰 文档 ， 更 新 文档 时 ， 需 要 设置 一 个 定时 任务 (cron job) ， 以 确保 
所 做 的 每 次 更 新 都 成 功 更 新 了 所 有 文档 。 例 如 ， 我 们 试图 将 更 新 扩散 到 多 个 文档 ， 
在 更 新 完 所 有 文档 之 前 ， 服 务 器 崩溃 了 。 需 要 能 够 检测 到 这 种 问题 ， 并 且 重 新 进行 
未 完 的 更 新 。 


一 般 来 说 ， 数 据 生成 越 频 繁 ， 就 越 不 应 该 将 这 些 数据 内 筷 到 其 他 文档 中 。 如 果 内 各 
字段 或 者 内 舱 字 段 数 量 是 无 限 增长 的 ， 那 么 应 该 将 这 些 内 容 保 存在 单独 的 集合 中 ， 
使 用 引用 的 方式 进行 访问 ， 而 不 是 内 柳 到 其 他 文档 中 。 评 论 列表 或 者 活动 列表 等 信 
息 应 该 保存 在 单独 的 集合 中 ， 不 应 该 内 向 到 其 他 文档 中 。 

最 后 ， 如 果 某 些 字 段 是 文档 数据 的 一 部 分 ， 那 么 需要 将 这 些 字段 内 上 租 到 文档 中 。 如 
有 果 在 查询 文档 时 经 常 需要 将 某 个 字段 排除 ， 那 么 这 个 字段 应 该 放 在 另外 的 集合 中 ， 
而 不 是 内 租 在 当前 的 文档 中 。 表 8-1 给 出 了 一 些 指 导 原 则 。 









































158 | 第 8 章 


表 8-1 内 赃 数 据 与 引用 数据 的 比较 




















更 适合 内 获 更 适合 引用 

子 文档 较 小 子 文档 较 大 

数据 不 会 定期 改变 数据 经 常 改变 

最 终 数据 一 致 即 可 中 间 阶 段 的 数据 必须 一 致 
文档 数据 小 幅 增 加 文档 数据 大 幅 增加 

数据 通常 需要 执行 二 次 查询 才能 获得 数据 通常 不 包含 在 结果 中 
快速 读 取 快速 写 入 


假如 我 们 有 一 个 用 户 集合 。 下 面 是 一 些 可 能 需要 的 字段 ， 以 及 它们 是 否 应 该 内 秽 到 

用 户 文档 中 。 

。 用 户 首选 项 (account preferences 
用 户 首选 项 只 与 特定 用 户 相 关 ， 而 且 很 可 能 需要 与 用 户 文档 内 的 其 他 用 户 信息 一 
起 查询 。 所 以 用 户 首 选项 应 该 内 舱 到 用 户 文档 中 。 





。 最 近 活 动 (recent activity ) 
这 个 字段 取决 于 最 近 活 动 增长 和 变化 的 频繁 程度 。 如 果 这 是 个 固定 长 度 的 字段 
(比如 最 近 的 10 次 活动 )， 那 么 应 该 将 这 个 字段 内 瞬 到 用 户 文档 中 。 





。 好 友 (friends ) 
通常 不 应 该 将 好 友信 息 内 竹 到 用 户 文档 中 ， 至 少 不 应 该 将 好 友信 息 完 全 内 租 到 用 
户 文档 中 。 下 节 会 介绍 社交 网 络 应 用 的 相关 内 容 。 


。 所 有 由 用 户 产生 的 内 容 








不 应 该 内 秽 在 用 户 文 档 中 。 
8.1.2 ”基数 


一 个 集合 中 包含 的 对 其 他 集合 的 引用 数量 叫做 基数 (cardinality)。 常 见 的 关系 有 一 
对 一 、 一 对 多 、 多 对 多 。 假 如 有 一 个 博客 应 用 程序 。 每 篇 博客 文章 (post) 都 有 一 
个 标题 (title)， 这 是 一 个 一 对 一 的 关系 。 每 个 作者 (author) 可 以 有 多 篇 文章 ， 这 
是 一 个 一 对 多 的 关系 。 每 篇 文章 可 以 有 多 个 标签 (tag)， 每 个 标签 可 以 在 多 篇 文章 
中 使 用 ， 所 以 这 是 一 个 多 对 多 的 关系 。 


在 MongoDB 中 ，many (多 ) 可 以 被 分 拆 为 两 个 子 分 类 : many (多 ) 和 few ( 少 )。 
假如 ， 作 者 和 文章 之 间 可 能 是 一 对 少 的 关系 : 每 个 作者 只 发 表 了 为 数 不 多 的 几 篇 文 
章 。 博 客 文章 和 标签 可 能 是 多 对 少 的 关系 : 文章 数量 实际 上 很 可 能 比 标签 数量 多 。 
博客 文章 和 评论 之 间 是 一 对 多 的 关系 : 每 篇 文章 都 可 以 拥有 很 多 条 评论 。 
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只 要 确定 了 少 与 多 的 关系 ， 就 可 以 比较 容易 地 在 内 租 数 据 和 引用 数据 之 间 进 行 权衡 。 
通常 来 说 ,“ 少 ”的 关系 使 用 内 艇 的 方式 会 比较 好 ,“ 多 ”的 关系 使 用 引用 的 方式 比 
较 好 。 


8.1.3 ”好 友 、 粉 缘 ， 以 及 其 他 的 麻烦 事项 


亲近 朋友 ， 远 离 敌人 。 


0 内 容 、 粉 丝 、 好 友 ， 以 及 其 他 一 些 事 物 。 对 

这 些 高 度 关联 的 数据 使 用 内 艇 的 形式 还 是 引用 的 形式 不 容易 权衡 。 这 一 节 会 介绍 
通常 ， 关 注 、 好 友 或 者 收藏 可 以 简化 为 一 个 发 布 - 
订阅 系统 : 一 个 用 户 可 以 订阅 另 一 个 用 户 相 关 的 通知 。 这 样 ， 有 两 个 基本 操作 需要 
比较 高 效 : 如 何 保存 订阅 者 ， 如 何 将 一 个 事件 通知 给 所 有 订阅 者 。 


比较 常见 的 订阅 实现 方式 有 三 种 。 第 一 种 方式 是 将 内 容 生产 者 内 航 在 订阅 者 文档 中 : 


{ 


















































"_ id" : ObjectId("51250a5cd86041c7dca8190f")， 

"username" : "batman", 

"email" : "batman@waynetech.com" 

"following" : [ 
ObjectId("51250a72d86041c7dca81910")， 
ObjectId("51250a7ed86041c7dca81936") 

] 

} 


现在 ， 对 于 一 个 给 定 的 用 户 文档 ， 可 以 使 用 形 如 db.activities.find({"user" 
: {"$in"” : user["following"]}}) 的 方式 查询 该 用 户 感 兴 趣 的 所 有 活动 信息 。 
但 是 ， 对 于 一 条 刚刚 发 布 的 活动 信息 ， 如 果 要 找 出 对 这 条 活动 信息 感 兴趣 的 所 有 用 
户 ， 就 不 得 不 查询 所 有 用 户 的 "following" 字段 了 。 

一 种 方式 是 将 订阅 者 内 秽 到 生产 生 文 档 中 : 


{ 





" id" : 0bjectId("51250a7ed86041c7dca81936" ) ， 

"username" : "joker", 

"email" : "joker@mailinator.com" 

"followers" : [ 
ObjectId("512510e8d86041c7dca81912")， 
ObjectId("51250a5cd86041c7dca8190f")， 
ObjectId("512510ffd86041c7dca81910") 

] 

} 


当 这 个 生产 者 新 发 布 一 条 信息 时 ， 我 们 立即 就 可 以 知道 需要 给 哪些 用 户 发 送 通 知 。 





这 样 做 的 缺点 是 ， 如 果 需 要 找到 一 个 用 户 关注 的 用 户 列表 ， 就 必须 查询 整个 用 户 集 
合 。 这 种 方式 的 优 缺 点 与 第 一 种 方式 的 优 缺 点 正好 相反 。 


同时 ， 这 两 种 方式 都 存在 另 一 个 问题 : 它们 会 使 用 户 文档 变 得 越 来 越 大 ， 改 变 也 越 
来 越 频 繁 。 通 常 ，"following" 和 "foLLowers" 字段 甚至 不 需要 返回 : 查询 粉丝 
列表 有 多 频繁 ? 如果 用 户 比较 频繁 地 关注 某 些 人 或 者 对 一 些 人 取消 关注 ， 也 会 导致 
大 量 的 碎片 。 因 此 ， 最 后 的 方案 对 数据 进一步 范式 化 ， 将 订阅 信息 保存 在 单独 的 集 
合 中 ， 以 避免 这 些 缺 点 。 进 行 这 种 程度 的 范式 化 可 能 有 点 儿 过 了 ， 但 是 对 于 经 常 发 
生变 化 而 且 不 需要 与 文档 其 他 字段 一 起 返回 的 字段 ， 这 非常 有 用 。 对 "followers" 
字段 做 这 种 范式 化 是 有 意义 的 。 


用 一 个 集合 来 保存 发 布 者 和 订阅 者 的 关系 ， 其 中 的 文档 结构 可 能 如 下 所 示 : 





























{ 
" id" : 0bjectId("51250a7ed86041c7dca81936") ，// 被 关注 者 的 " id" 
"followers" : [ 
ObjectId("512510e8d86041c7dca81912")， 
ObjectId("51250a5cd86041c7dca8190f")， 
ObjectId("512510ffd86041c7dca81910") 
] 
} 


这 样 可 以 使 用 户 文档 比较 精简 ， 但 是 需要 额外 的 查询 才能 得 到 粉丝 列表 。 由 
于 "followers" 数组 的 大 小 会 经 常 发 生变 化 ， 所 以 可 以 在 这 个 集合 上 启用 
"usePower0f2Sizes"， 以 保证 users 集合 尽 可 能 小 。 如 果 将 followers 集合 保存 在 
另 一 个 数据 库 中 ， 也 可 以 在 不 过 多 影响 users 集合 的 前 提 下 对 其 进行 压缩 。 


应 对 威 尔 ， 惠 顿 效 应 

不 管 使 用 什么 样 的 策略 ， 内 徐 字 段 只 能 在 子 文档 或 者 引用 数量 不 是 特别 大 的 情况 下 
有 效 发 挥 作用 。 对 于 比较 有 名 的 用 户 ， 可 能 会 导致 用 于 保存 粉丝 列表 的 文档 溢出 。 
对 于 这 种 情况 的 一 种 解决 方案 是 在 必要 时 使 用 “连续 的 ”文档 。 例 如 : 




















> db.users.find({"username" : "wil"}) 
{ 
"_id" : ObjectId("51252871d86041c7dca8191a")，, 
"username" : "wil", 
"email" : "wil@example.com", 
"tbc" : [ 


ObjectId("512528ced86041c7dca8191e")， 
ObjectId("5126510dd86041c7dca81924") 
] 


"followers" : [ 











注 1: 威 尔 ' 惠 顿 
的 冤家 对 头 。 








b 演 过 《星际 迷航 》， 并 在 《生活 大 爆炸 》 中 出 演 Sheldon 




















Ee 


(Wil Wheaton) : 美国 演员 ， 
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0bjectId("512528a0d86041c7dca8191b" ) ， 
0bjectId("512528a2d86041c7dca8191c" ) ， 
0bjectId("512528a3d86041c7dca8191d" ) ， 


} 
{ 
"_ id" : ObjectId("512528ced86041c7dca8191e")， 
"followers" : [ 
ObjectId("512528f1d86041c7dca8191f")， 
ObjectId("512528f6d86041c7dca81920")， 
ObjectId("512528f8d86041c7dca81921")， 
] 
} 
{ 
"_ id" : ObjectId("5126510dd86041c7dca81924")， 
"followers" : [ 
ObjectId("512673e1d86041c7dca81925")， 
ObjectId("512650efd86041c7dca81922")， 
ObjectId("512650fdd86041c7dca81923")， 
] 
} 


对 于 这 种 情况 ， 需 要 在 应 用 程序 中 添加 从 "tbc"” (to be continued) 数组 中 取 数 据 的 
相关 逻辑 。 


8.2 优化 数据 操作 

如 果 要 优化 应 用 程序 ， 首 先 必须 知道 对 读 写 性 能 进行 评估 以 便 找到 性 能 瓶颈 。 对 读 
取 操 作 的 优化 通常 包括 正确 使 用 索引 ， 以 及 尽 可 能 将 所 需 信 息 放 在 单个 文档 中 返回 。 
对 写 和 操作 的 优化 通常 包括 减少 索引 数量 以 及 尽 可 能 提高 更 新 效率 。 


经 常 需要 在 写 人 效率 更 高 的 模式 与 读 取 效 率 更 高 的 模式 之 间 权 衡 ， 所 以 必须 要 知道 
哪 种 操作 对 你 的 应 用 程序 更 重要 。 这 里 的 影响 因素 并 不 只 是 读 取 和 写 入 的 重要 性 ， 
也 包括 读 取 和 写 入 操作 的 频繁 程度 ， 如 果 对 你 的 应 用 程序 来 说 写 入 操作 更 加 重要 ， 
但 是 为 了 执行 一 次 写 入 操作 需要 进行 1000 次 读 取 操作 ， 那 么 还 是 应 该 首先 优化 读 取 
速度 。 


8.2.1 优化 文档 增长 

更 新 数据 时 ， 需 要 明确 更 新 是 否 会 导致 文件 体积 增长 ， 以 及 增长 程度 。 如 果 增 长 程 
度 是 可 预知 的 ， 可 以 为 文档 预 留 足 够 的 增长 空间 ， 这 样 可 以 避免 文档 移动 ， 可 以 提 
高 写 和 速度。 检查 一 下 填充 因子 : 如 果 它 大 约 是 1.2 或 者 更 大 ， 可 以 考虑 手动 填充 。 
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如 果 要 对 文档 进行 手动 填充 ， 可 以 在 创建 文档 时 创建 一 个 占 空 间 比 较 大 的 字段 ， 文 
件 创 建成 功 之 后 再 将 这 个 字段 移 除 。 这 样 就 提前 为 文档 分 配 了 足够 的 空间 供 后续 使 
用 。 假 设 有 一 个 餐馆 评论 的 集合 ， 其 中 的 文档 如 下 所 示 : 





{ 
"_id" : ObjectId(), 
"restaurant" : "Le Cirque", 
"review" : "Hamburgers were overpriced." 
"userId" : ObjectId(), 
"tags" : [] 
上 


"tags" 字段 会 随 着 用 户 不 断 添加 标签 而 增长 ， 应 用 程序 可 能 经 常 需要 执行 这 样 的 
更 新 操作 : 


> db.reviews.update({" id" : id}, 
... {"$push" : {"tags" : {"$each" : ["French", "Nne dining", "hamburgers"]}}}}) 





如 果 知 道 "tags" 通常 不 会 超过 100 字 节 ， 可 以 手工 为 文档 留 出 足够 的 填充 空间 ， 
这 样 可 以 避免 更 新 文档 时 发 生 文 档 移 动 。 如 果 不 为 文档 预 留 增长 空间 ， 那 么 每 当 

















"tags" 字段 增长 时 ， 文 档 就 会 被 移动 。 可 以 在 文档 最 后 添加 一 个 大 字段 (随便 用 
什么 名 字 ) 进行 手工 填充 ， 如 下 所 示 : 
{ 

"_id" : ObjectId(), 

"restaurant" : "Le Cirque", 

"review" : "Hamburgers were overpriced." 

"userId" : ObjectId(), 

"tags" : [], 


本 "+ 





可 以 在 第 一 次 插入 文档 时 这 么 做 ， 也 可 以 在 upsert 时 使 用 "$set0OnInsert" 创建 
这 个 字段 。 


更 新 文档 时 ， 总 是 用 "$unset'" 移 除 "garbage" 字段 。 





> db.reviews.update({" id" : id}, 
... {"$push" : {"tags" : {"$each" : ["French", "Nne dining", "hamburgers"]}}}, 
. "$unset" : {"garbage" : true}}) 




















如 果 "garbage" 字段 存在 ，"$unset" 操作 符 可 以 将 其 移 除 ， 如 果 这 个 字段 不 存 
在 ，"$unset" 操作 符 什么 也 不 做 。 


如 果 文 档 中 有 一 个 字段 需要 增长 ， 应 该 尽 可 能 将 这 个 字段 放 在 文档 最 后 的 位 置 
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("garbage" 之 前 )。 这 样 可 以 稍微 提高 一 点 点 的 性 能 ， 因 为 如 果 "tags" 字段 发 生 
了 增长 ，MongoDB 不 需要 重 写 "tags" 后 面 的 字段 。 








8.2.2 ”删除 旧 数 据 

有 些 数据 只 在 特定 时 间 内 有 用 : 几 周 或 者 几 个 月 之 后 ， 保 留 这 些 数据 只 是 在 浪费 存 
储 空间 。 有 三 种 常见 的 方式 用 于 删除 旧 数据 ,使 用 国定 集合 ， 使 用 TTL 集合 ,或 者 
定期 删除 集合 。 


最 简单 的 方式 是 使 用 固定 集合 : 将 集合 大 小 设 为 一 个 比较 大 的 值 ， 当 集合 被 填 满 时 ， 
将 旧 数 据 从 国定 集合 中 挤 出 。 但 是 ， 国 定 集合 会 对 操作 造成 一 些 限制 ， 而 且 在 密集 
插入 数据 时 会 大 大 降低 数据 在 固定 集合 内 的 存活 期 。6.1 节 有 详细 介绍 。 


第 二 种 方式 是 使 用 TTL 集合，TTL 集合 可 以 更 精确 地 控制 删除 文档 的 时 机 。 但 是 ， 
对 于 写 入 量 非 常 大 的 集合 来 说 这 种 方式 可 能 不 够 快 ， 它 通过 遍历 TTL 索引 来 删除 文 
档 。 如 果 TTL 集合 能 够 承受 足够 的 写 入 量 ， 使 用 TTL 集合 删除 旧 数 据 可 能 是 最 简 
单 的 方式 了 。6.2 节 有 详细 介绍 。 


最 后 一 种 方法 是 使 用 多 个 集合 : 例如 ， 每 个 月 的 文档 单独 使 用 一 个 集合 。 每 当月 份 
变更 时 ， 应 用 程序 就 开始 使 用 新 月 份 的 集合 〈 初 始 是 个 空 集合 ) ， 查 询 时 要 对 当前 月 
份 和 之 前 月 份 的 集合 都 进行 查询 。 对 于 6 个 月 之 前 创建 的 集合 ， 可 以 直接 将 其 删除 。 
这 种 方式 可 以 应 对 任意 的 操作 量 ， 但 是 对 于 应 用 程序 来 说 会 比较 复杂 ， 因 为 需要 使 
用 动态 的 集合 名 称 (或 者 数据 库 名 称 )， 也 要 动态 处 理 对 多 个 数据 库 的 查询 。 


8.3 数据库 和 集合 的 设计 

确定 了 文档 结构 之 后 ， 接 下 来 就 要 确定 使 用 什么 样 的 集合 或 者 数据 库 来 保存 文档 。 
常 这 个 过 程 很 简单 ， 但 是 有 一 些 指 导 原 则 需要 注意 。 
常 ， 


具有 相近 模式 的 文档 应 该 放 在 相同 的 集合 中 。MongoDB 通常 不 允许 使 用 多 
个 集合 进行 数据 组 合 ， 如 果 有 些 文档 需要 进行 集中 查询 或 者 聚合 ， 那 么 这 些 文档 应 
该 放 在 同一 个 大 集合 里 。 例 如 ， 可 能 有 一 些 结 构 非常 不 同 的 文档 ， 但 是 如 果 要 对 它 
们 进行 聚合 ， 就 需要 让 它们 位 于 同一 个 集合 内 。 


对 于 数据 库 来 说 ， 最 大 的 问题 是 锁 机 制 〈 每 个 数据 库 上 都 有 一 个 读 / 写 锁 ) 和 存储 。 
每 一 个 数据 库 ， 在 磁盘 上 都 位 于 自己 的 文件 中 (通常 也 在 单独 的 文件 夹 中 )， 这 意味 
着 ， 可 以 让 不 同 的 数据 库 位 于 不 同 的 磁盘 分 卷 。 所 以 ， 你 可 能 希望 数据 库 内 的 所 有 
项 目 都 拥有 相近 的 “质量 *、 相 近 的 访问 模式 ， 或 者 相近 的 访问 量 。 
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假设 我 们 有 一 个 拥有 多 个 组 件 的 应 用 程序 : 日 志 组 件 会 创建 大 量 的 日 志 数据 〈 日 志 
数据 不 是 很 重要 )， 还 要 有 一 个 用 户 集 合 ， 以 及 几 个 用 于 保存 用 户 生成 数据 的 集合 。 
用 户 集合 是 最 有 价值 的 : 保证 用 户 数 据 安全 是 非常 重要 的 。 社 交 活 动 数 据 需 要 放 在 
一 个 大 流量 集合 中 ， 它 不 如 用 户 集 合 重要 ， 但 是 比 日 志 集 合 重 要 。 这 个 集合 主要 用 
于 用 户 通知 ， 所 以 几乎 是 一 个 只 插入 不 更 新 的 集合 。 


按照 重要 性 进行 拆 分 ， 最 后 可 能 得 到 三 个 数据 库 : logs (日 志 )、activities (活动 )、 
users (用 户 )。 这 样 做 的 好 处 是 ， 最 重要 的 数据 集合 的 数据 量 可 能 最 小 (例如 ， 用 
户 集合 内 的 数据 通常 不 如 日 志 集 合 多 )。 将 所 有 数据 集 都 存储 在 SSD 上 你 可 能 负担 
不 起 ， 但 是 也 许可 以 只 将 用 户 集 合 存储 在 SSD 上 。 或 者 对 用 户 集 合 使 用 RAID10， 
而 对 日 志和 活动 集合 使 用 RAID0。 


注意 ， 使 用 多 个 数据 库 时 有 一 些 限制 MongoDB 通常 不 允许 直接 将 数据 从 一 个 数 
据 库 移 到 另 一 个 数据 库 。 例 如 ， 无 法 将 在 A 数据 库 上 执行 MapReduce 的 结果 保存 
到 B 数据 库 中 ， 也 无 法 使 用 renameCollection 命令 将 集合 从 一 个 数据 库 移动 到 
男 一 个 数据 库 (比如 ， 可 以 将 foo.bar 重 命名 为 foo.baz， 但 是 不 能 将 foo.bar 重 命名 
为 foo2.baz ) 。 


8.4 一 致 性 管理 

必须 要 明确 知道 应 用 程序 的 读 取 对 数据 一 致 性 的 要 求 有 多 高 。MongoDB 支持 多 种 
不 同 的 一 致 性 级 别 ， 从 每 次 都 读 到 完全 正确 的 最 新 数据 到 读 取 不 确定 新 旧 程 度 的 数 
据 。 如 果 要 得 到 最 近 一 年 内 的 活动 信息 报表 ， 可 能 只 要 求 最 近 这 些 天 的 数据 完全 准 
确 。 相 反 ， 如 果 要 做 实时 交易 ， 可 能 需要 即时 读 到 最 新 的 数据 。 


要 理解 如 何 获得 这 些 不 同 级 别 的 一 致 性 ， 首 先 要 了 解 MongoDB 的 内 部 机 制 。 服 务 
器 为 每 个 数据 库 连 接 维 护 一 个 请 求 队列 。 客 户 端 每 次 发 来 的 新 请 求 都 会 添加 到 队列 
的 末尾 。 入 队 之 后 ， 这 个 连接 上 的 请 求 会 依次 得 到 处 理 。 一 个 连接 拥有 一 个 一 致 的 
数据 库 视 图 ， 可 以 总 是 读 取 到 这 个 连接 最 新 写 人 的 数据 。 


注意 ， 每 个 列队 只 对 应 一 个 连接 : 如 果 打开 两 个 shell， 连 接 到 相同 的 数据 库 ， 这 时 
就 存在 两 个 不 同 的 连接 。 如 果 在 其 中 一 个 shell 中 执行 插入 操作 ， 紧 接着 在 另 一 个 
shell 中 执行 查询 操作 ， 新 插入 的 数据 可 能 不 会 出 现在 查询 结果 中 。 但 是 ， 如 果 是 在 
同一 个 shell 中 ， 插 入 一 个 文档 然后 执行 查询 ， 一 定 能 够 查询 到 刚 插入 的 文档 。 想 手 
动 重 现 这 种 问题 是 很 困难 的 ， 但 是 在 一 个 频 芭 执行 插入 和 查询 的 服务 器 上 很 可 能 会 
发 生 。 经 常会 有 一 些 开 发 者 使 用 一 个 线程 插入 数据 ， 然 后 使 用 另 一 个 线程 检查 数据 
是 否 成 功 插 入 。 片 刻 之 后 ， 刚 刚 的 数据 看 上 去 好 像 并 没有 成 功 插入 ， 但 是 这 些 数据 
忽然 就 出 现 了 。 
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使 用 Ruby、Python 和 Java 驱动 程序 时 尤其 要 注意 这 个 问题 ， 因 为 这 三 种 语言 的 驱 
动 程序 都 使 用 了 连接 池 (connection pool)。 为 了 提高 效率 ， 这 些 驱动 程序 会 建立 多 
个 与 服务 器 之 间 的 连接 (也 就 是 一 个 连接 池 )， 将 请 求 通过 不 同 的 连接 发 送 到 服务 
器 。 但 是 它们 都 有 各 自 的 机 制 来 保证 一 系列 相关 的 请 求 会 被 同一 个 连接 处 理 。 关 于 
不 同 语言 连接 池 的 详细 文档 ， 可 以 查看 MongoDB Wiki (http://dochub.mongodb.org/ 


drivers/connections ) 。 





当 向 副本 集 备 份 节点 (参见 第 11 章 ) 发 送 读 取 请 求 时 ， 就 更 麻烦 了 。 副 本 集 的 数 
据 可 能 不 是 最 新 的 ， 这 会 导致 读 取 到 的 数据 是 一 秒 钟 之 前 或 者 一 分 钟 之 前 的 ， 甚 
至 是 几 个 小 时 之 前 的 。 处 理 这 个 问题 的 方式 有 好 几 种 ， 最 简单 的 一 种 是 将 所 有 读 
取 请 求 都 发 送 到 主 数据 库 ， 这 样 便 可 以 每 次 都 得 到 最 新 最 准确 的 数据 。 也 可 以 设 
置 一 个 脚本 自动 检测 副本 集 是 否 落后 于 主 数据 库 ， 如 果 落 后 ， 就 将 副本 集 设 为 维 
护 状态 。 如 果 你 的 副本 集 比较 小 ， 可 以 使 用 "w" : setSize 执行 安全 写 和 信 ， 如 果 
getLastError 没 能 成 功 返 回 ， 可 将 后 续 的 读 取 请 求 发 送 到 主 数据 库 。 


8.5 模式 迁移 


随 着 应 用 程序 使 用 时 间 的 增长 和 需求 变化 ， 数 据 库 模式 可 能 也 需要 相应 地 增长 和 改 
变 。 有 几 种 方式 可 以 实现 这 个 需求 ， 不 管 使 用 哪 种 方法 ， 都 要 小 心 保存 该 程序 使 用 
过 的 每 一 个 模式 。 


最 简单 的 方式 就 是 在 应 用 程序 需要 时 改进 数据 库 模 式 ， 以 确保 应 用 程序 能 够 支持 所 
有 旧版 的 模式 〈 比 如 ， 要 能 够 从 容 处 理 某 些 字段 的 缺失 ， 或 者 是 某 些 字段 在 不 同 版 
本 中 的 不 同类 型 ) 。 这 种 方式 可 能 会 导致 混乱 ， 尤 其 是 不 同 版 本 的 模式 之 间 有 冲突 
时 。 例 如 ， 版 本 A 要 求 有 "mobile" 字段 ， 但 版 本 B 没有 "mobile" 字段 ， 却 需要 
有 另外 一 个 不 同 字段 ， 同 时 还 有 个 版 本 C 认为 "mobite" 字段 是 可 选 的 。 为 了 满足 
这 样 的 需求 可 能 会 逐步 把 代码 变 得 一 团 糟 。 


另 一 种 稍微 结构 化 一 点 儿 的 解决 方案 是 在 每 个 文档 中 包含 一 个 "version" 字段 (或 
者 "v")， 使 用 这 个 字段 来 决定 应 用 程序 能 够 接受 的 文档 结构 。 这 种 方式 对 模式 的 要 
求 更 加 严格 : 文档 必须 对 多 个 版 本 都 有 效 。 这 仍然 需要 支持 各 种 旧版 本 。 


最 后 一 种 方式 是 ， 当 模式 发 生变 化 时 ， 将 数据 进行 迁移 。 通 常 来 说 这 并 不 是 个 好 主 
意 : MongoDB 人 允许 使 用 动态 模式 ， 以 避免 执行 迁移 ， 因 为 执行 迁移 会 对 系统 造成 
很 大 的 压力 。 但 是 ， 如 果 决 定 改 变 每 一 个 文档 ， 需 要 确保 所 有 文档 都 被 成 功 更 新 。 
MongoDB 中 的 多 文档 更 新 并 不 是 原子 的 (原子 是 指 要 么 所 有 文档 都 成 功 更 新 ， 要 
么 一 个 也 不 更 新 )。 如 果 MongoDB 在 迁移 过 程 中 崩 涡 ， 最 终 的 结果 可 能 会 是 只 有 一 
部 分 文档 被 更 新 ， 还 有 一 部 分 没有 更 新 。 
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8.6 不 适合 使 用 MongoDB 的 场景 


尽管 MongoDB 是 一 个 通用 型 数据 库 ， 可 以 用 在 大 部 分 应 用 程序 中 ， 但 它 并 非 万 能 
的 。MongoDB 不 支持 下 面 这 些 应 用 场景 。 

















。 MongoDB 不 支持 事务 (transaction) ， 对 事务 性 有 要 求 的 应 用 程序 不 建议 使 用 
MongoDB。 可 以 用 几 种 方式 实现 简单 的 类 事务 (transaction-like) 语义 ， 尤 其 是 
操作 单个 文档 时 ， 但 是 数据 库 并 不 能 强制 要 求 用 户 这 么 做 。 因 此 ， 你 可 以 让 所 有 
客户 端 都 遵守 你 设 定 的 某 种 语义 规范 〈 比 如， 执行 任何 操作 之 前 都 要 先 检 查 锁 ) ， 
但 是 无 法 阻挡 不 知情 的 用 户 或 恶意 用 户 把 事情 变 成 一 团 糟 。 

。 在 多 个 不 同 维度 上 对 不 同类 型 的 数据 进行 连接 ， 这 是 关系 型 数据 库 善 长 的 事情 。 
MongoDB 不 支持 这 么 做 ， 以 后 也 很 可 能 不 支持 。 

。 最 后 ， 如 果 你 使 用 的 工具 不 支持 MongoDB， 那 可 能 你 应 该 选择 一 个 关系 型 数据 

库 ， 而 不 是 MongoDB。 有 很 多 工具 并 不 支持 MongoDB， 从 SQLAI chemy 到 

Wordpress。 支 持 MongoDB 的 工具 已 经 越 来 越 多 了 ,但 是 目前 来 说 仍然 不 如 关系 

型 数据 库 多 。 
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第 三 部 分 





复制 


第 9 章 


创建 副本 集 





本 章 介 绍 MongoDB 的 复制 系统 : 副本 集 (replica set)。 本 章 主 要 内 容 如 下 : 


1 本 集 的 概念 ， 
1 本 集 的 创建 方法 ， 
。 副本 集成 员 的 可 用 选项 。 


9.1 复制 简介 


从 第 1 章 开 始 ， 我 们 使 用 的 一 直 是 单 台 服务 器 ， 一 个 mongod 服务 器 进程 。 如 果 只 
是 用 作 学 习 和 开发 ， 这 是 可 以 的 ， 但 是 如 果 用 到 生产 环境 中 ， 风 险 会 很 高 : 如 果 服 
务 器 崩溃 了 或 者 不 可 访问 了 怎么 办 ? 数据 库 至 少 会 有 一 段 时 间 不 可 用 。 如 有 果 是 硬件 
出 了 问题 ， 可 能 需要 将 数据 转移 到 另 一 个 机 器 上 。 在 最 坏 的 情况 下 ， 磁 盘 或 者 网 络 
问题 可 能 会 导致 数据 损坏 或 者 数据 不 可 访问 。 


使 用 复制 可 以 将 数据 副本 保存 到 多 台 服 务 器 上 ， 建 议 在 所 有 的 生产 环境 中 都 要 使 用 。 
使 用 MongoDB 的 复制 功能 ， 即 使 一 台 或 多 台 服 务 器 出 错 ， 也 可 以 保证 应 用 程序 正 
常 运 行 和 数据 安全 。 


再 可 


HI 


























在 MongoDB 中 ， 创 建 一 个 副本 集 之 后 就 可 以 使 用 复制 功能 了 。 副 本 集 是 一 组 服务 
器 ， 其 中 有 一 个 主 服务 器 (primary)， 用 于 处 理 客户 端 请 求 , 还 有 多 个 备份 服务 器 
(secondary)， 用 于 保存 主 服务 器 的 数据 副本 。 如 果 主 服务 器 崩 江 了 ， 备 份 服务 器 会 
自动 将 其 中 一 个 成 员 升级 为 新 的 主 服务 器 。 
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使 用 复制 功能 时 ， 如 果 有 一 台 服 务 器 宕 机 了 ， 仍 然 可 以 从 副本 集 的 其 他 服务 器 上 访 
问 数据 。 如 果 服 务 器 上 的 数据 损坏 或 者 不 可 访问 ， 可 以 从 副本 集 的 某 个 成 员 中 创建 
一 份 新 的 数据 副本 。 


本 章 主要 介绍 副本 集 以 及 如 何在 系统 上 建立 复制 功能 。 


9.2 ”建立 副本 集 


为 了 快速 入 门 ， 本 市 会 指导 你 在 本 地 机 器 上 建立 一 个 包含 三 个 成 员 的 副本 集 。 这 些 
设置 不 适用 于 生产 环境 ,但 是 可 以 让 你 熟悉 复制 功能 以 及 相关 的 各 种 配置 。 





人 本 节 例 子 中 的 数据 保存 在 /data/db 目录 下 ， 应 该 在 运行 这 些 代码 之 前 确保 
人 Q 4 。 这 个 目录 存在 ， 而 且 当 前 用 户 对 这 个 目录 拥有 写 权限 。 


1 
人， 

















使 用 --nodb 选项 启动 一 个 mongo shell， 这 样 可 以 启动 shell 但 是 不 连接 到 任何 


mongod : 
$ mongo --nodb 
通过 执行 下 面 的 命令 就 可 以 创建 一 个 副本 集 : 


> replicaSet = new ReplSetTest({"nodes" : 3}) 


这 行 代码 可 以 创建 一 个 包含 三 个 服务 器 的 副本 集 : 一 个 主 服务 器 和 两 个 备份 服务 器 
但 是 ， 在 执 和 Se mongod 服务 器 不 会 真正 启动 : 











// 启动 3 个 mongod 进程 
replicaSet.startSet() 





// 配置 复制 功能 


> 
> 
> 
六 
> replicaSet.initiate() 








现在 已 经 有 了 3 个 mongod 进程 ， 分 别 运行 在 31000、31001 和 31002 端口 。 这 3 个 
进程 都 会 把 各 自 的 日 志 输 出 到 当前 shell 中 ， 这 会 让 人 很 混乱 。 所 以 先 把 这 个 shell 
放 在 一 边 ， 再 开启 一 个 新 的 shell 用 于 工作 吧 。 


在 第 二 个 shell 中 ， 连 接 到 运行 在 31000 端口 的 mongod: 





> connl = new Mongo("localhost:31000") 

connection to localhost:31000 

testRepLSet :PRIMARY> 

testRepLSet :PRIMARY> primaryDB = connl.getDB("test") 
test 





注意 ， 0 本 集成 员 时 ， 提 示 符 变 成 了 "testReplSet:PRIMARY>"。 
其 中 "PRIMARY" 是 当前 成 员 的 状态 ,"testReplSet" 是 副本 集 的 标识 符 。 
"testReplSet" 是 RepLSetTest 使 用 的 默认 名 称 ， 之 后 会 讲述 如 何 自 定义 副本 集 
标识 符 。 


为 了 简洁 和 可 读 性 ， 之 后 的 例子 会 使 用 ">" 代替 "testRepLSet:PRIMARY>" 提 


在 连接 到 主 节点 的 连接 上 执行 jsMaster 命令 ， 可 以 看 到 副本 集 的 状态 : 





> primaryDB.isMaster() 
{ 
"setName" : "testReplSet", 
"ismaster" : true, 
"secondary" : false, 
"hosts" : [ 
"wooster:31000", 
"wooster:31002", 
"wooster:31001" 
ls 
"primary" : "wooster:31000", 
"me" : "wooster:31000", 
"maxBsonObjectSize" : 16777216, 
"localTime" : I90Date("2012-09-28T15:48:11.0252")， 
Wo 二 江 
} 


isMaster 返回 的 字段 有 点 儿 多 ， 其 中 有 一 个 很 重要 的 字段 指明 了 这 是 一 个 主 节 点 
("ismaster"” : true)， 副 本 集中 还 有 一 个 hosts 列表 。 








嫉 所 
， 


如 果 服 务 器 返回 内 容 "ismaster" : false， 也 是 正常 的 。 可 以 从 
"primary" 字段 获知 主 节点 是 哪 一 个 ， 然 后 重新 连接 到 主 节点 所 在 的 主机 
/端口 就 可 以 了 。 

















既然 已 经 连接 到 主 市 点 ， 就 做 一 些 写 入 操作 看 看 会 有 什么 发 生 吧 ! 首先 ， 插入 1000 
个 文档 : 


for (i=0; i<1000; i++) { primaryDB.coll.insert({count: i}) } 


primaryDB.coll.count() 


> 
> 
> // 检查 集合 的 文档 数量 ， 确 保 真 的 插入 成 功 了 
> 
1000 


检查 其 中 一 个 副本 集成 员 ， 验 证 一 下 其 中 是 否 有 刚刚 写 入 的 那些 文档 的 副本 。 可 以 
连接 到 任意 一 个 备份 市 
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> conn2 = new Mongo("localhost:31001") 
connection to localhost:31001 

> secondaryDB = conn2.getDB("test") 
test 


备份 节点 可 能 会 落后 于 主 节 点 ， 可 能 没有 最 新 写 入 的 数据 ， 所 以 备份 节点 在 默认 情 


况 下 会 拒绝 读 取 请 求 ， 以 防止 应 用 程序 意外 拿 到 过 期 的 数据 。 因 此 ， 如 果 在 备份 市 
点 上 做 查询 ， 可 能 会 得 到 一 个 错误 提示 ， 说 当前 节点 不 是 主 闻 点 。 














> SecondaryDB.coLL.find() 
error: { "$err" : "not master and slaveok=false", "code" : 13435 } 


这 是 为 了 保护 应 用 程序 ， 以 免 意 外 连接 到 备份 证 点， 读 取 到 过 期 数据 。 如 果 希 望 从 
备份 厄 点 读 取 数据 ， 需 要 设置 “从 备份 方 点 读 取 数据 没有 问题 ”标识 ， 如 下 所 示 : 




















> conn2.setSlaveOk() 


注意 ，sLave0k 是 对 连接 (例子 中 是 conn2) 设置 的 ， 不 是 对 数据 库 (secondaryDB) 
设置 的 。 


现在 就 可 以 从 这 个 备份 节点 中 读 取 数据 了 。 使 用 普通 的 查询 : 


SecondaryOe. coll.find() 

"id" : ObjectId("5037cac65f3257931833902b"), "count" : 
: ObjectId("5037cac65f3257931833902c"), "count" : 
"” id” : ObjectId("5037cac65f3257931833902d"),，, "count" : 


VV 
pp 
Ci 
ND 
= = 一 


{ " id" : ObjectId("5037cac65f3257931833903c"), "count" : 17 } 
{ "_id" : ObjectId("5037cac65f3257931833903d"), "count" : 18 } 
{ "id" : ObjectId("5037cac65f3257931833903e"), "count" : 19 } 
Type "it" for more 

> 

> secondaryDB.coll.count() 

1000 


可 以 看 到 刚刚 写 和 人 的 所 有 文档 都 出 现在 备份 节点 中 了 。 
现在 ， 试 着 在 上 执行 号 人 操作 : 





> secondaryDB.coll.insert({"count" : 1001}) 


> secondaryDB.runCommand({"getLastError" : 1}) 
{ 

"err" : "not master", 

"code" : 10058, 

"ne 0; 

"lastOp" : Timestamp(0, 0), 

"connectionId" : 5, 

OK“ 坟 江 
} 














可 以 看 到 ， 不 能 对 备份 节点 执行 写 操作 。 备 份 节点 只 通过 复制 功能 写 和 数据， 不 接 
受 客户 端的 写 入 请 求 。 


有 一 个 很 有 意思 的 功能 你 应 该 试 一 下 : 自动 故障 转移 (automatic failover)。 如 果 主 
节点 挂 了 ， 其 中 一 个 备份 节点 会 自动 选举 为 主 节点 。 为 了 验证 这 个 功能 ， 先 关 掉 主 
节点 : 

















> primaryDB.adminCommand({"shutdown" : 1}) 


在 备份 节点 上 执行 1sMaster， 看 看 新 的 主 节 点 是 哪 一 个 


> SecondaryDB.isMaster() 


返回 的 内 容 如 下 所 示 : 


{ 





"setName" : "testReplSet", 
"ismaster" : true, 
"secondary" : false, 
"hostss -5 
"wooster:31001" 
"wooster:31000", 
"wooster:31002" 


primary" : "wooster:31001", 

"me" : "wooster:31001", 

"maxBsonObjectSize" : 16777216, 

"localTime" : ISODate("2012-09-28T16:52:07.9752")， 

"ok" :1 

} 

新 的 主 节 点 也 可 以 是 其 他 服务 器 。 第 一 个 检测 到 主 节 点 挂 了 的 备份 节点 会 成 为 新 的 
主 节点 。 现在 可 以 向 新 的 主 节 点 发 送 写 入 请 求 了 。 


isMaster 是 一 个 非常 老 的 命令 了 ， 那 时 副本 集 还 没有 出 现 ，MongoDB 只 支持 主 从 
复制 (master-slave replication)。 所 以 它 与 副本 集 的 术语 有 些 不 一 致 ， i 中 
的 主 节 点 (master) 与 副本 集中 的 主 节 点 (primary) 是 等 同 的 ， 从 节点 (slave) 则 
相当 于 备份 节点 (secondary ) 。 


在 副本 集 上 完成 这 些 操作 之 后 ， 从 第 一 个 shell 中 将 其 关闭 。 这 个 shell 中 现在 应 该 
充满 了 大 量 的 副本 集成 员 输 出 日 志 ， 毅 儿 次 Enter 键 之 后 就 可 以 看 到 命令 提示 符 了 
可 以 执行 下 面 的 命令 关闭 副本 集 : 








> replicaSet.stopSet() 


蔡 喜 ! 你 刚刚 已 经 完成 了 创建 副本 集 、 使 用 副本 集 和 关闭 副本 集 的 操作 ! 
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有 几 个 关键 的 概念 需要 注意 。 


。 客户 端 在 单 台 服 务 器 上 可 以 执行 的 请 求 ， 都 可 以 发 送 到 主 节 点 执行 ( 读 、 写 、 执 
行 命令 、 创 建 索 引 等 )。 

。 客户 端 不 能 在 备份 节点 上 执行 写 操作 。 

默认 情况 下 ， 客 户 端 不 能 从 备份 节点 中 读 取 数据 。 在 备份 节点 上 显 式 地 执行 

setStLave0k 之 后 ， 客 户 端 就 可 以 从 备份 节点 中 读 取 数据 了 。 


理解 这 些 基本 知识 之 后 ， 本 章 剩 余 的 部 分 是 集中 讲述 在 各 种 实际 情况 下 应 该 如 何 配 
置 副本 集 。 记 住 ， 如 果 和 希望 在 实际 中 看 看 其 个 配置 或 者 选项 的 效果 ， 随 时 可 以 回 到 
RepLSetTest。 


9.3 配置 副本 集 
在 实际 的 部 署 中 ， 需 要 在 多 台 机 器 之 间 建 立 复制 功能 。 本 节 会 完整 建立 一 个 真实 场 
景 下 的 副本 集 ， 你 在 自己 的 应 用 程序 中 可 以 直接 使 用 。 


假设 你 有 一 个 运行 在 server-1:27017 上 的 单个 mongod 实例 ， 其 中 已 经 有 一 些 数据 
(如 果 数 据 库 中 现在 没有 数据 也 没关系 ， 只 是 数据 目录 会 为 空 而 已 ) 。 首 先 要 为 副本 
集 选 定 一 个 名 字 ， 名 字 可 以 是 任意 的 UTF-8 字符 串 。 


选 好 名 称 之 后 ， 使 用 - - repLSet name 选项 重启 server-1。 例如: 






































$ mongod --replSet spock -f mongod.conf --fork 





现在 ,使 用 同样 的 replSet 和 标示 符 (spock) 再 启动 两 个 mongod 服务 器 作为 副 
本 集中 的 其 他 成 员 : 





$ ssh server-2 

server-2$ mongod --replSet spock -f mongod.conf --fork 
server-2$ exit 

$ 

$ ssh server-3 

server-3$ mongod --replSet spock -f mongod.conf --fork 
server-3$ exit 


只 有 第 一 个 副本 集成 员 拥有 数据 ， 其 他 成 员 的 数据 目录 都 是 空 的 。 只 要 将 后 两 个 成 
员 添 加 到 副本 集中 ， 它 们 就 会 自动 克隆 第 一 个 成 员 的 数据 。 


将 replSet 选项 添加 到 每 个 成 员 各 有 自 的 mongod.conf 文件 中 ， 以 后 启动 时 就 会 自 
动 使 用 这 个 选项 。 


现在 应 该 有 3 个 分 别 运 行 在 不 同 服务 器 上 的 mongod 实例 了 。 但 是 ， 每 个 mongod 
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都 不 知道 有 其 他 mongod 存在 。 为 了 让 每 个 mongod 能 够 知道 彼此 的 存在 ， 需 
要 创建 一 个 配置 文件 ， 在 配置 文件 中 列 出 每 一 个 成 员 ， 并 且 将 配置 文件 发 送 给 
server-1， 然 后 server-1 会 负责 将 配置 文件 传播 给 其 他 成 员 。 


首先 创建 配置 文件 。 在 shell 中 ， 创 建 一 个 如 下 所 示 的 文档 : 


> config = { 


"_id" : "spock", 

"members" : [ 
{"_id" : 0, "host" : "server-1:27017"}, 
{"_id" : 1, "host" : "server-2:27017"}, 
{"_id" : 2, "host" : "server-3:27017"} 


] 
} 


这 个 配置 文档 中 有 几 个 重要 的 部 分 。”_ id" 字段 的 值 就 是 启动 时 从 命令 行 传递 进来 
的 副本 集 名 称 〈 在 本 例 中 是 "spock")。 一 定 要 保证 这 个 名 称 与 启动 时 传人 的 名 称 
一 致 。 


这 个 文档 的 剩余 部 分 是 一 个 副本 集成 员 数 组 。 其 中 每 个 元 素 都 需要 两 个 字段 : 一 个 
唯一 的 数值 类 型 的 "id'" 字段 ， 和 一 个 主机 名 〈 将 例子 中 的 主机 名 替换 为 你 自己 实 
际 使 用 的 主机 地 址 ) 。 

这 个 config 对 象 就 是 副本 集 的 配置 ， 现 在 需要 将 其 发 送 给 其 中 一 个 副本 集成 员 。 
为 此 ， 连 接 到 一 个 有 数据 的 服务 器 (server-1:27017)， 使 用 config 对 象 对 副本 
集 进行 初始 化 : 








> // 连接 到 server-1 
> db = (new Mongo("server-1:27017")).getDB("test") 
> 


> // 初始 化 副本 集 
> rs.initiate(config) 


{ 
"info" : "Config now saved locally. Should come online in about a minute.", 
"ok" :1 
} 
server-1 会 解析 这 个 配置 对 象 ， 然 后 向 其 他 成 员 发 送 消 息 ， 提 醒 它 们 使 用 新 的 配 
置 。 所 有 成 员 都 配置 完成 之 后 ， 它 们 会 自动 选 出 一 个 主 节 点 ， 然 后 就 可 以 正常 处 理 
读 写 请 求 了 。 


奢 六 











> 可 惜 ， 无 法 将 单机 服务 器 转换 为 副本 集 ， 除 非 停 机 重启 并 进行 初始 化 。 即 
心 。 使 只 有 一 个 服务 器 ， 可 能 你 也 想 将 它 配置 为 一 个 上 只 有 一 个 成 员 的 副本 集 。 
全 有 了 这 样 一 个 副本 集 之 后 ， 继 续 添加 更 多 的 成 员 时 就 不 需要 停机 了 。 























如 果 正 在 创建 一 个 全 新 的 副本 集 ， 可 以 将 配置 文件 发 送 给 副本 集 的 任何 一 个 成 员 。 
如 果 副 本 集中 已 经 有 一 个 有 数据 的 成 员 ， 那 就 必须 将 配置 对 象 发 送 给 这 个 拥有 数据 
的 成 员 。 如 果 拥 有 数据 的 成 员 不 止 一 个 ， 那 么 就 无 法 初始 化 副本 集 。 








必须 使 用 mongo shell 来 配置 副本 集 。 没 有 其 他 方法 可 以 基于 文件 对 副本 集 
人 心 4 、 进行 配置 。 





9.3.1 rs 辅助 函数 

注意 上 面 的 rs.initiate() 命令 中 的 rs。rs 是 一 个 全 局 变量 ， 其 中 包含 与 复制 相 
关 的 辅助 函数 (可 以 执行 rs.heLp() 查看 可 用 的 辅助 函数 )。 这 些 函数 大 多 只 是 
数据 库 命令 的 包装 器 。 例 如 ， 下 面 的 数据 库 命令 与 rs.initiate(conNg) 是 等 
价 的 : 





> db.adminCommand({"replSetInitiate" : config}) 


对 辅助 国 数 和 底层 的 数据 库 命令 都 做 些 了 解 是 非常 好 的 ， 有 时 直接 使 用 数据 库 命 令 
比 使 用 辅助 函数 要 简单 。 


9.3.2 ”网 络 注意 事项 
副本 集 内 的 每 个 成 员 都 必须 能 够 连接 到 其 他 所 有 成 员 (包括 自身 )。 如 果 遇 到 某 些 成 员 
不 能 到 达 其 他 运行 中 成 员 的 错误 ， 就 需要 更 改 网 络 配置 以 便 各 个 成 员 能 够 相互 连通 。 


另外 ， 副 本 集 的 配置 中 不 应 该 使 用 localhost 作为 主机 名 。 如 果 所 有 副本 集成 员 都 
运行 在 同一 台 机 器 上 ， 那 么 localhost 可 以 被 正确 解析 ， 但 是 运行 在 一 台 机 器 上 的 
副本 集 意 义 不 大 ， 如 果 副 本 集 是 运行 在 多 台 机 器 上 的 ， 那 么 localhost 就 无 法 被 解析 
为 正确 的 主机 名 。MongoDB 允许 副本 集 的 所 有 成 员 都 运行 在 同一 台 机 器 上 ， 这 样 
可 以 方便 在 本 地 测试 ， 但 是 如 果 在 配置 中 混用 localhost 和 非 localhost 主机 名 的 话 ， 
MongoDB 会 给 出 警告 。 


9.4 修改 副本 集 配置 


可 以 随时 修改 副本 集 的 配置 ,可 以 添加 或 者 删除 成 员 ， 也 可 以 修改 已 有 的 成 员 。 很 
多 常用 操作 都 有 对 应 的 shell 辅助 函数 ， 比 如 ， 可 以 使 用 rs.add 为 副本 集 添加 新 
成 员 : 


> rs.add("server-4:27017") 
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类 似 地 ， 也 可 以 从 副本 集中 删除 成 员 : 


> rs.remove("server-1:27017") 

Fri Sep 28 16:44:46 DBClientCursor::init call() failed 

Fri Sep 28 16:44:46 query failed : admin.$cmd { replSetReconfig: { 
_id: "testReplSet", version: 2, members: [ { id: 0, host: "ubuntu:31000" }, 
{ _id: 2, host: "ubuntu:31002" } ] } } to: localhost:31000 

Fri Sep 28 16:44:46 Error: error doing query: 
failed src/mongo/shell/collection.js:155 

Fri Sep 28 16:44:46 trying reconnect to localhost:31000 

Fri Sep 28 16:44:46 reconnect localhost:31000 ok 


注意 ， 删 除 成 员 时 (或 者 是 除 添加 成 员 之 外 的 其 他 改变 副本 集 配 置 的 行为 )， 会 在 
shell 中 得 到 很 多 无 法 连接 数据 库 的 错误 信息 。 这 是 正常 的 ， 这 实际 上 说 明 配 置 修改 
成 功 了 。 重 新 配置 副本 集 上 时， 作为 重新 配置 过 程 的 最 后 一 步 ， 主 节点 会 关闭 所 有 连 
接 。 因 此 ，shell 中 的 连接 会 短暂 断 开 ， 然 后 重新 自动 建立 连接 。 


重新 配置 副本 集 时 ， 主 节点 需要 先 退化 为 普通 的 备份 节点 ， 以 便 接 受 新 的 配置 ， 然 
后 会 恢复 。 要 注意 ， 重 新 配置 副本 集 之 后 会 ， 副 本 集中 会 暂时 没有 主 节 点 ， 之 后 会 
一 切 恢复 正常 。 














可 以 在 shell 中 执行 rs.config() 来 查看 配置 修改 是 否 成 功 。 这 个 命令 可 以 打印 出 
副本 集 当 前 使 用 的 配置 信息 : 





> rs.config() 


{ 
"_id" : "testReplSet", 
"version" : 2， 
"members" : [ 
{ 
"id® 2 1; 
"host" : "server-2:27017" 
}, 
{ 
"id 2; 
"host" : "server-3:27017" 
}, 
{ 
1d" 35 
"host" : "server-4:27017" 
} 
] 
} 


每 次 修改 副本 集 配置 时 ，"version" 字段 都 会 自 增 ， 它 的 初始 值 为 1。 


除了 对 副本 集 添加 或 者 删除 成 员 ， 也 可 以 修改 现 有 的 成 员 。 为 了 修改 副本 集成 员 ， 可 
以 在 shell 中 创建 新 的 配置 文档 ， 然 后 调用 rs . reconNg。 假 设 有 如 下 所 示 的 配置 : 
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> rs.config() 


{ 
"_ id" : "testReplSet", 
"version"” : 2, 
"members" : [ 
{ 
"Ld 3 0 
"host" : "server-1:27017" 
}, 
{ 
“dd 
host LO L123527017" 
}, 
{ 
2 
"host" : "server-3:27017" 
} 
] 
} 


其 中 "id" 为 1 的 成 员 地 址 用 IP 而 不 是 主机 名 表示 ， 需 要 将 其 改 为 主机 名 表示 的 
地 址 。 首 先 在 shell 中 得 到 当前 使 用 的 配置 ， 然 后 修改 相应 的 字段 : 


> var config = rs.config() 
> config.members[1].host = "server-2:27017" 


现在 配置 文件 修改 完成 了 ， 需 要 使 用 rs.reconfig 辅助 函数 将 新 的 配置 文件 发 送 
给 数据 库 : 


> rs.reconfig(config) 


对 于 复杂 的 数据 集 配置 修改 ，rs. reconfig 通常 比 rs.add 和 rs.remove 更 有 用 ， 
比如 修改 成 员 配 置 或 者 是 一 次 性 添加 或 者 删除 多 个 成 员 。 可 以 使 用 这 个 命令 做 任何 
合法 的 副本 集 配 置 修改 : 只 需 创 建 想 要 的 配置 文档 然后 将 其 传 给 rs . reconfig。 


9.5 设计 副本 集 

为 了 能 够 设计 自己 的 副本 集 ， 有 一 些 特 定 的 副本 集 相 关 概 念 需要 熟悉 。 下 一 章 会 详 
细 讲 述 这 些 内 容 。 副 本 集中 很 重要 的 一 个 概念 是 “大 多 数 ”(majority) : 选择 主 节 
点 时 需要 由 大 多 数 决 定 ， 主 节点 只 有 在 得 到 大 多 数 支持 时 才能 继续 作为 主 节 点 ， 写 
操作 被 复制 到 大 多 数 成 员 时 这 个 写 操作 就 是 安全 的 。 这 里 的 大 多 数 被 定义 为 “副本 
中 一 半 以 上 的 成 员 ”， 如 表 9-1 所 示 。 


注意 ， 如 果 副 本 集中 有 些 成 员 挂 了 或 者 是 不 可 用 ， 并 不 会 影响 “大 多 数 "。 因 为 “大 
多 数 ” 是 基于 副本 集 的 配置 来 计算 的 。 
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表 9-1 怎样 才 算 大 多 数 


副本 集中 的 成 员 总 数 。 副本 集中 的 大 多 数 
1 





-J Om DD 
上 上 mm pb 一 





假设 有 一 个 包含 5 个 成 员 的 副本 集 ， 其 中 3 个 成 员 不 可 用 ， 仍 然 有 2 个 可 以 正常 工作 ， 
如 图 9-1 所 示 。 剩 余 的 2 个 成 员 已 经 无 法 达到 副本 集 “ 大 多 数 ”的 要 求 〈 在 这 个 例 
子 中 ， 至 少 要 有 3 个 成 员 才 算 “ 大 多 数 ”)， 所 以 它们 无 法 选举 主 市 点 。 如 果 这 两 个 
成 员 中 有 一 个 是 主 市 点 ， 当 它 注 意 到 它 无 法 得 到 “大 多 数 ” 成 员 支 持 时 ， 就 会 从 主 
市 点 上 退位 。 几 秒 钟 之 后 ， 这 个 副本 集中 会 包含 2 个 备份 证 点 和 3 个 不 可 达成 员 。 


L 
加 


图 9-1: 由 于 副本 集中 只 有 人 少数 成 员 可 用 ， 所 有 成 员 都 会 变 为 备份 节点 


可 能 会 有 很 多 人 觉得 这 样 的 规则 弱 爆 了 : 为 什么 剩余 的 两 个 成 员 不 能 选举 出 主 节 点 
呢 ? 问题 在 于 ，3 个 不 可 达 的 成 员 并 不 一 定 是 真 的 挂 了 ， 可 能 只 是 由 于 网 络 问题 造 
成 不 可 达 ， 如 图 9-2 所 示 。 在 这 种 情况 下 ， 左 边 的 3 个 成 员 可 以 选举 出 一 个 主 市 点 ， 
因为 3 个 成 员 可 以 达到 副本 集成 员 的 大 多 数 总共 5 个 成 员 ) 。 






























































图 9-2: 对 于 成 员 来 说 ， 左 边 的 服务 器 会 觉得 右边 的 服务 器 挂 了 ， 右 边 的 服务 器 也 会 觉得 左 
边 的 服务 器 挂 了 
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在 这 种 情况 下 ， 我 们 不 希望 两 边 的 网 络 各 自选 举 出 一 个 主 节 点 : 那样 的 话 副本 集 就 
会 拥有 两 个 主 节点 了 ! 两 个 主 节 点 都 可 以 写 人 数据， 这 样 整个 副本 集 的 数据 就 会 发 
生 混 乱 。 只 有 达到 “大 多 数 ” 的 情况 下 才能 选举 或 者 维持 主 市 点 ， 这 样 要 求 是 为 了 
避免 出 现 多 个 主 节 点 。 








通常 只 能 有 一 个 主 节点 ， 这 对 于 副本 集 的 配置 是 很 重要 的 。 例 如 ， 对 于 上 面 描述 的 5 
个 成 员 来 说 ， 如 果 1、2、3 位 于 同一 个 数据 中 心 ， 而 4、5 位 于 另 一 个 数据 中 心 。 这 
样 ， 在 第 1 个 数据 中 心里 ， 几 乎 总 是 可 以 满足 “大 多 数 ”这 个 条 件 (这 样 就 可 以 比较 
容易 地 判断 出 很 可 能 是 数据 中 心 之 间 的 网 络 错误 ， 而 不 是 数据 中 心 内 部 的 错误 )。 


一 种 常见 的 设置 是 使 用 2 个 成 员 的 副本 集 (这 通常 不 是 你 想 要 的 ) : 一 个 主 市 点 和 一 
个 备份 市 点 。 假 如 其 中 一 个 成 员 不 可 用 ， 另 一 个 成 员 就 看 不 到 它 了 ， 如 图 9-3 所 示 。 
在 这 种 情况 下 ， 网 络 任 何 一 端 都 无 法 达到 “大 多 数 ” 的 条 件 ， 所 以 这 个 副本 集会 退化 
为 拥有 两 个 备份 节点 〈 疫 有 主 节 点 ) 的 副本 集 。 因 此 ， 通 常 不 建议 使 用 这 样 的 配置 。 
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9-3: 如 果 成 员 总 数 是 偶数 , 成 员 平均 分 配 到 不 同 的 网 络 中 , 任何 一 边 都 无 法 满足 “大 多 数 ” 
的 条 件 


下 面 是 两 种 推荐 的 配置 方式 。 


。 将 “大 多 数 ” 成 员 放 在 同一 个 数据 中 心 ， 如 图 9-2 所 示 。 如 果 有 一 个 主 数据 中 心 ， 
而 且 你 希望 副本 集 的 主 节 点 总 是 位 于 主 数据 中 心 的 话 ， 这 样 的 配置 会 比较 好 。 只 
要 主 数据 中 心 能 够 正常 运转 ,就 会 有 一 个 主 节 点 。 但 是 ,如 果 主 数据 中 心 不 可 用 了 ， 
那么 备份 数据 中 心 的 成 员 无 法 选举 出 主 节点 。 

。 在 两 个 数据 中 心 各 自 放 置 数量 相等 的 成 员 ， 在 第 三 个 地 方 放置 一 个 用 于 决定 胜 负 
的 副本 集成 员 。 如 果 两 个 数据 中 心 同等 重要 ， 那 么 这 种 配置 会 比较 好 。 因 为 任意 
一 个 数据 中 心 的 服务 器 都 可 以 找到 另 一 台 服 务 器 以 达到 “大 多 数 ”。 但 是 ， 这 样 
就 需要 将 服务 器 分 散 到 三 个 地 方 。 


更 复杂 的 需求 需要 使 用 不 同 的 配置 ， 一 定 要 考虑 清楚 ， 出 现 不 利 情况 时 ， 副 本 集 要 
如 何 达 到 “大 多 数 ” 的 要 求 。 


如 果 MongoDB 的 一 个 副本 集 可 以 拥有 多 个 主 市 点 ， 上 面 这 些 复杂 问题 就 迎刃而解 
了 。 但 是 ， 多 个 主 节 点 会 带 来 其 他 的 复杂 性 。 拥 有 两 个 主 节 点 的 情况 下 ， 就 需要 处 
理 写 入 冲突 (例如 ，A 在 第 一 个 主 节 点 上 更 新 了 一 个 文档 ， 而 B 在 另 一 个 主 节 点 上 
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删除 了 这 个 文档 ) 。 在 支持 多 线程 写 入 的 系统 中 有 两 种 常见 的 冲突 处 理 方式 : 手工 解 
决 冲突 或 者 是 让 系统 任 选 一 个 作为 “赢家 ”。 但 是 这 两 种 方式 对 于 开发 者 来 说 都 不 容 
易 实现 ， 因 为 无 法 确保 写 入 的 数据 不 会 被 其 他 市 点 修改 。 因 此 ，MongoDB 选择 只 
支持 单一 主 市 点 。 这 样 可 以 使 开发 更 容易 ， 但 是 当 副 本 集 被 设 为 只 读 时 ， 将 导致 程 
序 暂 时 无 法 写 入 数据 。 


选举 机 制 
当 一 个 备份 节点 无 法 与 主 节 点 连通 时 ， 它 就 会 联系 并 请 求 其 他 的 副本 集成 员 将 自己 
选举 为 主 节 点 。 其 他 成 员 会 做 几 项 理性 的 检查 : 自身 是 否 能 够 与 主 节 点 连通 ?和 希望 
被 选举 为 主 节点 的 备份 节点 的 数据 是 否 最 新 ” 有 没有 其 他 更 高 优先 级 的 成 员 可 以 被 
选举 为 主 闻 点 ? 


如 果 要 求 被 选举 为 主 节 点 的 成 员 能 够 得 到 副本 集中 “大 多 数 ” 成 员 的 投票 ， 它 就 会 
成 为 主 节 点 。 即 使 “大 多 数 ”成 员 中 只 有 一 个 否决 了 本 次 选举 ， 选 举 就 会 取消 。 如 
果 成 员 发 现任 何 原 因 ， 表 明 当 前 希望 成 为 主 节 点 的 成 员 不 应 该 成 为 主 节 点 ， 那 么 它 
就 会 否决 此 次 选举 。 


在 日 志 中 可 以 看 到 得 票数 为 比较 大 的 负数 的 情况 ， 因 为 一 张 否 决 票 相 当 于 10 000 张 
赞成 票 。 如 果 某 个 成 员 投 赞成 票 ， 另 一 个 成 员 投 否决 票 ， 那 么 就 可 以 在 消息 中 看 到 
选举 结果 为 -9999 或 者 是 比较 相近 的 负数 值 。 


Wed Jun 20 17:44:02 [rsMgr] replSet info electSelf 1 
Wed Jun 20 17:44:02 [rsMgr] replSet couldn't elect self, only received -9999 votes 


如 果 有 两 个 成 员 投 了 否决 票 ， 一 个 成 员 投了 赞成 票 ， 那 么 选举 结果 就 是 -19999， 依 
次 类 推 。 这 些 消 息 是 很 正常 的 » 不 必 担 心 o 


希望 成 为 主 市 点 的 成 员 (候选 人 ) 必须 使 用 复制 将 自己 的 数据 更 新 为 最 新 ， 副 本 集 
中 的 其 他 成 员 会 对 此 进行 检查 。 复 制 操作 是 严格 按照 时 间 排 序 的 ， 所 以 候选 人 的 最 
后 一 条 操作 要 比 它 能 连通 的 其 他 所 有 成 员 更 晚 (或 者 与 其 他 成 员 相 等 )。 


假设 候选 人 执行 的 最 后 一 个 复制 操作 是 123。 它 能 连通 的 其 他 成 员 中 有 一 个 的 最 后 
复制 操作 是 124， 那 么 这 个 成 员 就 会 否决 候选 人 的 选举 。 这 时 候选 人 会 继续 进行 数 
据 同步 ， 等 它 同 步 到 124 时 ， 它 会 重新 请 求 选 举 〈 如 果 那 时 整个 副本 集中 仍然 没有 
主 节 点 的 话 ) 。 在 新 一 轮 的 选举 中 ， 假 如 候选 人 没有 其 他 不 合 规 之 处 ， 之 前 否决 它 的 
成 员 就 会 为 它 投 赞成 票 。 


假如 候选 人 得 到 了 “大 多 数 ” 的 赞成 票 ， 它 就 会 成 为 主 节 点 。 
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还 有 一 点 需要 注意 : 每 个 成 员 都 只 能 要 求 自己 被 选举 为 主 市 点 。 简 单 起 见 ， 不 能 推 
et ee 


9.6 成 员 配 置 选项 


到 目前 为 止 ， 我 们 建立 的 副本 集中 所 有 成 员 都 拥有 同样 的 配置 。 但 是 ， 有 时 我 们 并 
不 希望 每 个 成 员 都 完全 一 样 。 你 可 能 希望 让 茶 个 成 员 拥 有 优先 成 为 主 节 点 的 权力 ， 
或 者 是 让 茶 个 成 员 对 客户 端 不 可 见 ， 这 样 便 不 会 有 读 写 请 求 发 送 给 它 。 在 副本 集 配 
置 的 子 文档 中 可 以 为 每 个 成 员 指 定 这 些 选 项 (甚至 更 多 选项 )。 本 市 介绍 可 以 对 成 员 
使 用 的 选项 。 


9.6.1 选举 仲裁 者 

上 面 的 例子 显示 了 具有 两 个 成 员 的 副本 集 在 “大 多 数 ” 要 求 上 的 缺点 。 但 是 ， 很 多 
人 的 应 用 程序 使 用 量 比较 小 ， 并 不 想 保 存 三 份 数 据 副本 。 两 份 副 本 已 经 足够 了 ， 保 
存 第 三 份 副本 的 话 纯粹 是 浪费 人 力 、 物 力 和 财力 。 


对 于 这 种 部 署 ，MongoDB 支持 一 种 特殊 类 型 的 成 员 ， 称 为 仲裁 者 〈arbiter) 。 仲 裁 
者 的 唯一 作用 就 是 参与 选举 。 仲 裁 者 并 不 保存 数据 ， 也 不 会 为 客户 端 提供 服务 : 它 
只 是 为 了 帮助 具有 两 个 成 员 的 副本 集 能 够 满足 “大 多 数 ” 这 个 条 件 。 


由 于 仲裁 者 并 不 需要 履行 传统 mongod 服务 器 的 责任 ， 所 以 可 以 将 仲裁 者 作为 轻 量 
级 进程 ， 运 行 在 配置 比较 差 的 服务 器 上 。 如 果 可 能 ， 应 该 将 仲裁 者 放 在 单独 的 故障 
域 (failure domain) 中 ， 与 其 他 成 员 分 开 。 这 样 它 就 可 以 以 “外 部 视角 ”来 看 待 副 
本 集中 的 成 员 了 ， 如 9.5 节 在 部 署 列表 中 推荐 的 一 样 。 


启动 仲裁 者 与 启动 普通 mongod 的 方式 相同 ， 使 用 "- - repLSet 副本 集 名称 " 和 空 
的 数据 目录 。 可 以 使 用 rs .addArb ( ) 辅助 函数 将 仲裁 者 添加 到 副本 集中 : 


> rs.addArb("server-5:27017") 






































也 可 以 在 成 员 配置 中 指定 arbiter0ntLy 选项 ， 这 与 上 面 的 效果 是 一 样 的 : 


> rs.add({" id" : 4, "host" : "server-5:27017", "arbiterOnly" : true}) 
成 员 一 旦 以 仲裁 者 的 身份 添加 到 副本 集中 ， 它 就 永远 只 能 是 仲裁 者 : 无 法 将 仲裁 者 
重新 配置 为 非 仲裁 者 ， 反 之 亦 然 。 


使 用 仲裁 者 的 另 一 个 好 处 是 : 如 果 你 拥有 的 节点 数 是 偶数 ， 那 么 可 能 会 出 现 一 半 贡 
点 投票 给 A， 但 是 另 一 半 成 员 投票 给 B 的 情况 。 仲 裁 者 这 时 就 可 以 投 出 决定 胜 负 的 
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关键 一 票 。 


1. 最 多 只 能 使 用 一 个 仲裁 者 

注意 ， 在 上 面 的 例子 中 ， 最 多 只 需要 一 个 仲裁 者 。 如 果 市 点 数量 是 奇数 ， 那 就 不 需 
要 仲裁 者 。 一 种 错误 的 理解 是 : 为 了 “以 防 万 一 ”， 总 是 应 该 添加 额外 的 仲裁 者 。 但 
是 ,添加 额外 的 仲裁 者 ， 并 不 能 加 快 选举 速度 ， 也 不 能 提供 更 好 的 数据 安全 性 。 


假设 有 一 个 3 成 员 的 副本 集 。 需 要 两 个 成 员 才 能 组 成 “大 多 数 ”， 才 能 选举 主 市 点 。 
如 果 这 时 添加 了 一 个 仲裁 者 ， 副 本 集中 总 共 就 有 4 个 成 员 了 ,要 有 3 个 成 员 才 能 组 
成 “大 多 数 "。 因 此 ， 副 本 集 的 稳定 性 其 实 是 降低 了 : 原本 只 需要 67% 的 成 员 可 用 ， 
副本 集 就 可 用 ;现在 必须 要 有 75% 的 成 员 可 用 ， 副 本 集 才 可 用 。 


添加 额外 成 员 也 会 导致 选举 耗 时 变 长 。 由 于 添加 了 仲裁 者 ， 现 在 副本 集 一 共 拥 有 偶 
数 个 成 员 ， 这 样 就 可 能 出 现 两 个 成 员 票 数 相同 的 情况 。 仲 裁 者 的 目的 应 该 是 避免 出 
现 平 票 ， 而 不 是 导致 出 现 平 票 。 


2. 仲裁 者 的 缺点 

不 知道 应 该 将 一 个 成 员 作为 数据 节点 还 是 作为 仲裁 者 时 ， 应 该 将 其 作为 数据 节点 。 
在 小 副本 集中 使 用 仲裁 者 而 不 是 数据 节点 会 导致 一 些 操作 性 的 任务 变 困 难 。 假 设 有 
一 个 副本 集 ， 它 有 两 个 “普通 ”成 员 ， 还 有 一 个 仲裁 者 成 员 ， 其 中 一 个 数据 成 员 挂 
了 。 如 果 这 个 数据 成 员 真 的 挂 了 (数据 无 法 恢复 ) ， 另 一 个 数据 成 员 成 为 主 节 点 。 这 
时 整个 副本 集中 只 有 一 个 数据 成 员 和 一 个 仲裁 者 成 员 。 为 了 保证 数据 安全 ， 就 需要 
一 个 新 的 备份 节点 ， 并 且 将 主 节点 的 数据 副本 复制 到 备份 节点 。 复 制 数据 会 对 服务 
器 造成 很 大 的 压力 ， 会 拖 慢 应 用 程序 。 通 常 ， 将 儿 GB 的 数据 复制 到 新 服务 器 可 以 
很 快 完成 ， 不 会 对 服务 器 和 应 用 程序 造成 显著 影响 ,但 是 如 果 要 复制 100 GB 以 上 
的 数据 ， 问 题 就 会 很 严重 了 。 


相反 ， 如 果 拥 有 三 个 数据 成 员 ， 一 个 服务 器 挂 掉 时 ， 副 本 集中 仍然 有 一 个 主 节 点 和 
一 个 备份 节点 ， 不 会 影响 正常 运作 。 这 时 ， 可 以 用 剩余 的 那个 备份 节点 来 初始 化 一 
个 新 的 备份 节点 服务 器 ， 而 不 必 依 赖 于 主 节 点 。 


在 上 面 两 个 数据 成 员 + 一 个 仲裁 者 成 员 的 情景 中 ， 主 节点 是 仅 剩 的 一 份 完好 的 数 
据 ， 它 不 仅 要 处 理应 用 程序 请 求 ， 还 要 将 数据 复制 到 另 一 个 新 的 服务 器 上 。 


如 果 可 能 ， 尽 可 能 在 副本 集中 使 用 奇数 个 数据 成 员 ， 而 不 要 使 用 仲裁 者 。 


9.6.2 ”优先 级 
优先 级 用 于 表示 一 个 成 员 渴望 成 为 主 节点 的 程度 。 优 先 级 的 取 值 范围 可 以 是 0~100， 















































创建 副本 集 | 185 








默认 是 1。 将 优先 级 设 为 0 有 特殊 含义 : 优先 级 为 0 的 成 员 永 远 不 能 够 成 为 主 布 点 。 
这 样 的 成 员 称 为 被 动 成 员 (passive member)。 


拥有 最 高 优先 级 的 成 员 会 优先 选举 为 主 市 点 (只 要 它 能 够 得 到 集合 中 “大 多 数 ” 的 
赞成 票 ， 并 且 数 据 是 最 新 的 )。 假 如 在 副本 集中 添加 了 一 个 优先 级 为 1.5 的 成 员 : 


> rs.add({" id" : 4, "host" : "server-4:27017", "priority" : 1.5}) 


假设 其 他 成 员 的 优先 级 都 是 1， 只 要 server-4 拥有 最 新 的 数据 ， 那 么 当前 的 主 节 点 
就 会 自动 退位 ，server-4 会 被 选举 为 新 的 主 节 点 。 如 果 server-4 的 数据 不 够 新 ， 那 么 
当前 主 节 点 就 会 保持 不 变 。 设 置 优先 级 并 不 会 导致 副本 集中 选 不 出 主 节 点 ， 也 不 会 
使 数据 不 够 新 的 成 员 成 为 主 市 点 (一 直到 它 的 数据 更 新 到 最 新 )。 


使 用 优先 级 时 有 一 点 需要 注意 : 修改 副本 集 配置 时 ， 新 的 配置 必须 要 发 送 给 在 新 配 
置 下 可 能 成 为 主 节点 的 成 员 。 因 此 ， 无 法 在 一 次 reconfig 操作 中 将 当前 主 市 点 的 
优先 级 设置 为 0， 也 不 能 对 所 有 成 员 优先 级 都 为 0 的 副本 集 执行 reconfig。 

优先 值 的 值 只 会 影响 副本 集成 员 间 相 对 优先 级 大 小 关系 。 如 果 某 个 副本 集 3 个 成 员 
的 优先 级 是 500、1、1， 另 一 个 副本 集 3 个 成 员 的 优先 级 是 2、1、1， 那 么 它们 的 
行为 是 一 样 的 。 

















9.6.3 ”隐藏 成 员 

客户 端 不 会 向 隐藏 成 员 发 送 请 求 ， 隐 藏 成 员 也 不 会 作为 复制 产 (尽管 当 其 他 复制 源 
不 可 用 时 隐藏 成 员 也 会 被 使 用 ) 。 因 此 ， 很 多 人 会 将 不 够 强大 的 服务 器 或 者 备份 服务 
器 隐藏 起 来 。 

假设 有 一 副本 集 如 下 所 示 : 


> rs.isMaster() 


{ 

JROStS 2 | 
"server-1:27107", 
"server-2:27017", 
"server-3:27017" 

J 

3 


为 了 隐藏 server-3， 可 以 在 它 的 配置 中 指定 hidden : true。 只 有 优先 级 为 0 的 成 
员 才 能 被 隐藏 (不 能 将 主 节 点 隐藏 ) : 


> var config = rs.config() 
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> config.members[2].hidden = 0 

0 

> config.members[2].priority = 0 
0 

> rs.reconfig(config) 


现在 ， 执 行 jsMaster() 可 以 看 到 





> rs.isMaster() 


{ 

"hosts" : [ 
"server-1:27107", 
"server-2:27017" 

让 

} 


使 用 rs.status() 和 rs.conNg() 能 够 看 到 隐藏 成 员 ， 隐 藏 成 员 只 对 ijsMaster() 
不 可 见 。 客 户 端 连接 到 副本 集 时 ， 会 调用 isMaster() 来 查看 可 用 成 员 。 因 此 ， 隐 
藏 成 员 不 会 收 到 客户 端的 读 请 求 。 


要 将 隐藏 成 员 设 为 非 隐藏 ， 只 需 将 配置 中 的 hidden 设 为 false 就 可 以 了 ， 或 者 删 
除 hidden 选项 。 


9.6.4 延迟 备份 节点 

数据 可 能 会 因为 人 为 错误 而 遭受 毁灭 性 的 破坏 : 可 能 有 人 不 小 心 删除 了 主 数据 库 ， 
或 者 刚 上 线 的 新 版 应 用 程序 有 一 个 严重 bug， 把 所 有 数据 都 变 成 了 垃圾 。 为 了 防止 
这 类 问题 ， 可 以 使 用 slaveDelay 设置 一 个 延迟 的 备份 节点 。 


延迟 备份 节点 的 数据 会 比 主 节点 延迟 指定 的 时 间 (单位 是 秒 )， 这 是 有 意 为 之 。 这 
样 ， 如 果 有 人 不 小 心 摧毁 了 你 的 主 集合 ， 还 可 以 将 数据 从 先前 的 备份 中 恢复 过 来 。 
12.4.7 节 有 详细 介绍 。 














slaveDelay 要 求 成 员 的 优先 级 是 0。 如 果 你 的 应 用 会 将 读 请 求 路 由 到 备份 节点 ， 
应 该 将 延迟 备份 节点 隐藏 掉 ， 以 免 读 请 求 被 路 由 到 延迟 备份 节点 。 


9.6.5 ”创建 索引 


有 时 ， 备 份 节点 并 不 需要 与 主 节 点 拥有 相同 的 索引 ， 甚 至 可 以 没有 索引 。 如 果 基 个 
备份 节点 的 用 途 仅仅 是 处 理 数据 备份 或 者 是 离线 的 批量 任务 ， 那 么 你 可 能 希望 在 它 
的 成 员 配 置 中 指定 "buildIndexs" : false。 这 个 选项 可 以 阻止 备份 节点 创建 
索引 。 























这 是 一 个 永久 选项 ， 指 定 了 "buildIndexes" : false 的 成 员 永 远 无 法 恢复 为 可 
以 创建 索引 的 “正常 ”成 员 。 如 果 确 实 需要 将 不 创建 索引 的 成 员 修改 为 可 以 创建 索 
引 的 成 员 ， 那 么 必须 将 这 个 成 员 从 副本 集中 移 除 ， 再 删除 它 的 所 有 数据 ， 最 后 再 将 
它 重新 添加 到 副本 集中 ， 并 且 人 允许 它 重新 进行 数据 同步 。 











另外 ， 这 个 选项 也 要 求 成 员 的 优先 级 为 0。 
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第 10 章 


副本 集 的 组 成 





本 章 介绍 副本 集 的 各 个 部 分 是 如 何 组 织 在 一 起 的 ， 包 括 : 


。 副本 集成 员 如 何 复制 新 数据 ， 
。 如 何 让 新 成 员 开 始 工作 ， 

。 选举 机 制 ; 

。 可 能 的 服务 器 和 网 络 故障 。 


10.1 同步 


复制 用 于 在 多 台 服 务 器 之 间 备 份 数 据 。MongoDB 的 复制 功能 是 使 用 操作 日 志 oplog 
实现 的 ， 操 作 日 志 包 含 了 主 节点 的 每 一 次 写 操作 。oplog 是 主 方 点 的 local 数据 库 中 
的 一 个 固定 集合 。 备 份 市 点 通过 查询 这 个 集合 就 可 以 知道 需要 进行 复制 的 操作 。 


每 个 备份 节点 都 维护 着 自己 的 oplog， 记 录 着 每 一 次 从 主 市 点 复制 数据 的 操作 。 这 
样 ， 每 个 成 员 都 可 以 作为 同步 源 提供 给 其 他 成 员 使 用 ， 如 图 10-1 所 示 。 备 份 方 点 从 
当前 使 用 的 同步 源 中 获取 需要 执行 的 操作 ， 然 后 在 自己 的 数据 集 上 执行 这 些 操作 ， 
最 后 再 将 这 些 操作 写 入 自己 的 oplog。 如 果 遇 到 某 个 操作 失败 的 情况 (只 有 当 同 步 
源 的 数据 损坏 或 者 数据 与 主 节 点 不 一 致 时 才 可 能 发 生 )， 那 么 备份 节点 就 会 停止 从 当 
前 的 同步 源 复制 数据 。 
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十 -HH 


主 节 点 

















10-1: oplog 中 按 顺序 保存 着 所 有 执行 过 的 写 操作 。 每 个 成 员 都 维护 着 一 份 自己 的 oplog， 
每 个 成 员 的 oplog 都 应 该 跟 主 节点 的 oplog 完全 一 致 (可 能 会 有 一 些 延 迟 ) 


如 果 某 个 备份 节点 由 于 某 些 原因 挂 掉 了 ， 当 它 重 新 启动 之 后 ， 就 会 自动 从 oplog 中 
最 后 一 个 操作 开始 进行 同步 。 由 于 复制 操作 的 过 程 是 先 复制 数据 再 写 入 oplog， 所 
以 ， 备 份 市 点 可 能 会 在 已 经 同步 过 的 数据 上 再 次 执行 复制 操作 。MongoDB 在 设计 
之 初 就 考虑 到 了 这 种 情况 : 将 oplog 中 的 同一 个 操作 执行 多 次 ， 与 只 执行 一 次 的 效 


果 是 一 样 的 。 


由 于 oplog 大 小 是 固定 的 ， 它 只 能 保存 特定 数量 的 操作 日 志 。 通 常 ，oplog 使 用 空间 
的 增长 速度 与 系统 处 理 写 请 求 的 速率 近乎 相同 : 如 果 主 节点 上 每 分 钟 处 理 了 1 KB 
的 写 和 请求， 那么 oplog 很 可 能 也 会 在 一 分 钟 内 写 入 1 KB 条 操作 日 志 。 但 是 ， 有 一 
些 例外 情况 :如果 单 次 请 求 能 够 影响 到 多 个 文档 (比如 删除 多 个 文档 或 者 是 多 文档 
更 新 )，oplog 中 就 会 出 现 多 条 操作 日 志 。 如 果 单 个 操作 会 影响 多 个 文档 ， 那 么 每 个 
受 影响 的 文档 都 会 对 应 oplog 中 的 一 条 日 志 。 因 此 ， 如 果 执 行 db. coll.remove() 
删除 了 1 000 000 个 文档 ， 那 么 oplog 中 就 会 有 1 000 000 条 操作 日 志 ， 每 条 日 志 对 
应 一 个 被 删除 的 文档 。 如 果 执 行 大 量 的 批量 操作 ，oplog 很 快 就 会 被 填 满 。 










































































10.1.1 初始 化 同步 

副本 集中 的 成 员 启 动 之 后 ， 就 会 检查 自身 状态 ， 确 定 是 否 可 以 从 某 个 成 员 那 里 进行 
同步 。 如 果 不 行 的 话 ， 它 会 尝试 从 副本 的 另 一 个 成 员 那 里 进行 完整 的 数据 复制 。 这 
个 过 程 就 是 初始 化 同步 (initial syncing)， 包 括 几 个 步骤 ， 可 以 从 mongod 的 日 志 中 
看 到 。 


(1) 首先 ， 这 个 成 员 会 做 一 些 记录 前 的 准备 工作 : 选择 一 个 成 员 作为 同步 源 ， 在 
local.me 中 为 自己 创建 一 个 标识 符 ， 删 除 所 有 已 存在 的 数据 库 ， 以 一 个 全 新 的 状 
态 开始 进行 同步 : 














190 | 第 10 章 


Mon 
Mon 
Mon 
Mon 
Mon 
Mon 


Jan 30 11:09:18 [rsSync] replSet initial sync pending 

Jan 30 11:09:18 [rsSync] replSet syncing to: server-1:27017 

Jan 30 11:09:18 [rsSync] build index local.me { id: 1 } 

Jan 30 11:09:18 [rsSync] build index done 0 records 0 secs 

Jan 30 11:09:18 [rsSync] replSet initial sync drop all databases 
Jan 30 11:09:18 [rsSync] dropAllDatabasesExceptLocal 1 


主意 ， 在 这 个 过 程 中 ， 所 有 现 有 的 数据 都 会 被 删除 。 应 该 只 在 不 需要 保留 现 有 
a 因为 mongod 会 首先 











将 现 有 数据 删除 。 

(2) 然后 是 克隆 (cloning)， 就 是 将 同步 源 的 所 有 记录 全 部 复制 到 本 地 。 和 常 是 整 
个 过 程 中 最 耗 时 的 部 分 : 
Mon Jan 30 11:09:18 [rsSync] replSet initial sync clone all databases 


Mon 
Mon 


Jan 30 11:09:18 [rsSync] replSet initial sync cloning db: dbl 
Jan 30 11:09:18 [fileAllocator] allocating new datafile /data/db/dbl.ns, 
filling with zeroes... 


(3) 然后 就 进入 oplog 同步 的 第 一 步 ， 克 隆 过 程 中 的 所 有 操作 都 会 被 记录 到 oplog 


中 ， 


对 于 这 样 的 文档 ， 可 能 需要 重新 进行 克隆 : 


Mon 
Mon 
Mon 


Mon 


Mon 


Mon 





es 





下 





Jan 30 15:38:36 [rsSync] oplog Sync 1 of 3 

Jan 30 15:38:36 [rsBackgroundSync] replSet Syncing to: server-1:27017 

Jan 30 15:38:37 [rsSyncNotiNer] replset setting oplog notiNer to 

server-1:27017 

Jan 30 15:38:37 [repl writer worker 2] replication update of non-mod 

failed: 

{ ts: Timestamp 1352215827000|17, h: -5618036261007523082, v: 2, op: "Uu", 
ns: "dbl.someColl", o02: { id: ObjectId('50992a2a7852201e750012b7') }， 
0: { $set: { count.0: 2, count.1: 0 }}} 

Jan 30 15:38:37 [repl writer worker 2] replication info 

adding missing object 

Jan 30 15:38:37 [repl writer worker 2] replication missing object 

not found on source. presumably deleted later in oplog 


上 面 是 一 个 比较 粗略 的 日 志 ， 显 示 了 有 文档 需要 重新 克隆 的 情况 。 在 克隆 过 程 
中 也 可 能 不 会 遗漏 文档 ， 这 取决 于 流量 等 级 和 同步 源 上 的 操作 类 型 。 


(4) 接 下 来 是 oplog 同步 过 程 的 第 二 步 ， 用 于 将 第 一 个 oplog 同步 中 的 操作 记录 下 来 。 


Mon 


这 人 











Jan 30 15:39:41 [rsSync] oplog Sync 2 of 3 


个 过 程 比 较 简 单 ， 也 没有 太 多 的 输出 。 只 有 在 没有 东西 需要 克隆 时 ， 这 个 过 





程 才 会 与 第 一 个 不 同 。 
(5) 到 目前 为 止 ， 本 地 的 数据 应 该 与 主 节 点 在 某 个 时 间 点 的 数据 集 完 全 一 致 了 ， 可 








1 本 集 的 组 成 ”| 191 


瑟 串 





以 开始 创建 索引 了 。 如 果 集 合 比较 大 ， 或 者 要 创建 的 索引 比较 多 ， 这 个 过 程 会 
很 耗 时 间 : 


Mon Jan 30 15:39:43 [rsSync] replSet initial sync building indexes 

Mon Jan 30 15:39:43 [rsSync] replSet initial sync cloning indexes for : dbl 

Mon Jan 30 15:39:43 [rsSync] build index db.allObjects { someColl: 1 } 

Mon Jan 30 15:39:44 [rsSync] build index done. scanned 209844 total records. 
1.96 secs 





(6) 如 果 当 前 节点 的 数据 仍然 远 远 落 后 于 同步 源 ， 那 么 oplog 同步 过 程 的 最 后 一 步 就 
是 将 创建 索引 期 间 的 所 有 操作 全 部 同步 过 来 ， 防 止 该 成 员 成 为 备份 市 点 。 








Tue Nov 6 16:05:59 [rsSync] oplog sync 3 of 3 


(7) 现在 ， 当 前 成 员 已 经 完成 了 初始 化 同步 ， 切 换 到 普通 同步 状态 ， 这 时 当前 成 员 就 
可 以 成 为 备份 节点 了 : 





Mon Jan 30 16:07:52 [rsSync] replSet initial sync done 
Mon Jan 30 16:07:52 [rsSync] replSet Syncing to: server-1:27017 
Mon Jan 30 16:07:52 [rsSync] replSet SECONDARY 


如 果 想 跟踪 初始 化 同步 过 程 ， 最 好 的 方式 就 是 查看 服务 器 日 志 。 


从 操作 者 的 角度 来 说 ， 初 始 化 同步 是 非常 简单 的 : 使 用 空 的 数据 目录 启动 mongod 
即 可 。 但 是 ， 更 多 时 候 可 能 需要 从 备份 中 恢复 (第 22 章 会 详细 介绍 ) 而 不 是 进行 初 
始 化 同步 。 从 备份 中 恢复 的 速度 比 使 用 mongod 复制 全 部 数据 的 速度 快 得 多 。 


克隆 也 可 能 损坏 同步 源 的 工作 集 (working set) 。 实 际 部 署 之 后 ， 可 能 会 有 一 个 频繁 
使 用 的 数据 子 集 常 驻 内 存 (因为 操作 系统 要 频繁 访问 这 个 子 集 )。 执 行 初始 化 同步 
时 ， 会 强制 将 当前 成 员 的 所 有 数据 分 页 加 载 到 内 存 中 ， 这 会 导致 需要 频繁 访问 的 数 
据 不 能 常 驻 内 存 ， 所 以 会 导致 很 多 请 求 变 慢 ， 因 为 原本 只 要 在 RAM (内存 ) 中 就 可 
以 处 理 的 数据 要 先 从 磁盘 上 加 载 。 不 过 ， 对 于 比较 小 的 数据 集 和 性 能 比较 好 的 服务 
器 ， 初 始 化 同步 仍然 是 个 简单 易 用 的 选项 。 


初始 化 同步 过 程 中 经 常 遇 到 的 问题 是 ， 第 (2) 步 (克隆 ) 或 者 第 (5) 步 〈 创 建 索引 ) 
耗费 了 太 长 的 时 间 。 这 种 情况 下 ， 新 成 员 就 与 同步 源 的 oplog“ 脱 节 ”: 新 成 员 远 远 
落后 于 同步 源 ， 导 致 新 成 员 的 数据 同步 速度 赶不上 同步 源 的 变化 速度 ， 同 步 源 可 能 
会 将 新 成 员 需 要 复制 的 某 些 数据 覆盖 掉 。 

这 个 问题 没有 有 效 的 解决 办 法 ， 除 非 在 不 太 忙 时 执行 初始 化 同步 ， 或 者 是 从 备份 中 
恢复 数据 。 如 果 新 成 员 与 同步 源 的 oplog 脱节 ， 初 始 化 同步 就 无 法 正常 进行 。 下 一 
市 会 更 深入 地 介绍 。 
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10.1.2 ”处 理 陈 旧 数 据 

如 果 备 份 节点 远 远 落 后 于 同步 源 当前 的 操作 ， 那 么 这 个 备份 节点 就 是 陈旧 的 
(stale)。 陈 旧 的 备份 节点 无 法 跟 上 同步 源 的 节奏 ， 因 为 同步 产 上 的 操作 领先 太 多 太 
多 : 如 果 要 继续 进行 同步 ， 备 份 节点 需要 跳 过 一 些 操作 。 如 果 从 备份 节点 曾经 停机 
过 ， 写 入 量 超过 了 自身 处 理 能 力 ， 或 者 是 有 太 多 的 读 请 求 ， 这 些 情况 都 可 能 导致 备 
份 节点 陈旧 。 


当 一 个 备份 节点 陈旧 之 后 ， 它 会 查看 副本 集中 的 其 他 成 员 ， 如 果 某 个 成 员 的 oplog 
足够 详尽 ， 可 以 用 于 处 理 那些 落下 的 操作 ， 就 从 这 个 成 员 处 进行 同步 。 如 果 任 何 一 
个 成 员 的 oplog 都 没有 参考 价值 ， 那 么 这 个 成 员 上 的 复制 操作 就 会 中 止 ， 这 个 成 员 
需要 重新 进行 完全 同步 (或 者 是 从 最 近 的 备份 中 恢复 )。 


为 了 避免 陈旧 备份 布点 的 出 现 ， 让 主 节点 使 用 比较 大 的 oplog 保存 足够 多 的 操作 日 
志 是 很 重要 的 。 大 的 oplog 会 占用 更 多 的 磁盘 空间 。 通 常 来 说 ， 这 是 一 个 比较 好 的 
折 囊 选择 ， 因 为 磁盘 会 越 来 越 便宜 ， 而 且 实 际 中 使 用 的 oplog 只 有 一 小 部 分 ， 因 此 
oplog 不 占用 太 多 RAM。 关 于 oplog 空间 占用 的 更 多 信息 ，12.4.6 市 会 详细 介绍 。 














10.2 心跳 

每 个 成 员 都 需要 知道 其 他 成 员 的 状态 : 哪个 是 主 节 点 ? 哪个 可 以 作为 同步 源 ? 哪个 
挂 控 了 ? 为 了 维护 集合 的 最 新 视图 ， 每 个 成 员 每 隔 两 秒 钟 就 会 向 其 他 成 员 发 送 一 
个 心跳 请 求 (heartbeat request) 。 心 跳 请 求 的 信息 量 非 常 小 ， 用 于 检查 每 个 成 员 
的 状态 。 


心跳 最 重要 的 功能 之 一 就 是 让 主 市 点 知道 自己 是 否 满足 集合 “大 多 数 ” 的 条 件 。 如 
果 主 节点 不 再 得 到 “大 多 数 ” 服 务 器 的 支持 ， 它 就 会 退位 ， 变 成 备份 节点 。 
成 员 状 态 


各 个 成 员 会 通过 心跳 将 自己 的 当前 状态 告诉 其 他 成 员 。 我 们 已 经 讨论 过 两 种 状态 了 : 
主 节 点 和 备份 节点 。 还 有 其 他 一 些 常见 状态 。 

















。 STARTUP 
成 员 刚 启动 时 处 于 这 个 状态 。 在 这 个 状态 下 ，MongoDB 会 尝试 加 载 成 员 的 副本 
集 配置 。 配 置 加 载 成 功 之 后 ， 就 进入 STARTUP2 状态 。 


。 STARTUP2 
整个 初始 化 同步 过 程 都 处 于 这 个 状态 ， 但 是 如 果 是 在 普通 成 员 上 ， 这 个 状态 只 会 
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持续 几 秒 钟 。 在 这 个 状态 下 ，MongoDB 会 创建 几 个 线程 ， 用 于 处 理 复制 和 选举 ， 





然后 就 会 切换 到 RECOVERING 状态 。 


。 RECOVERING 


这 个 状态 表明 成 员 运 转正 常 ， 但 是 暂时 还 不 能 处 理 读 取 请 求 。 如 果 有 成 员 处 于 这 
个 状态 ， 可 能 会 造成 轻微 的 系统 过 载 ， 以 后 可 能 会 经 常见 到 。 


启动 时 ， 成 员 需 要 做 一 些 检查 以 确保 自己 处 于 有 效 状 态 ， 之 后 才 可 以 处 理 读 取 请 
求 。 在 启动 过 程 中 ， 成 为 备份 节点 之 前 ， 每 个 成 员 都 要 经 历 RECOVERING 状态 。 
在 处 理 非 常 耗 时 的 操作 时 ， 成 员 也 可 能 进入 RECOVERING 状态 。， 比 如 压缩 或 者 
是 响应 repLSetMaintenance 命令 ( 详 见 12.3.3 节 ) 。 








当 一 个 成 员 与 其 他 成 员 脱 节 时 ， 也 会 进入 RECOVERING 状态 。 通 常 来 说 ， 这 时 这 


个 成 员 处 于 无 效 状态 ， 需 要 重新 同步 。 但 是 ， 成 员 这 时 并 没有 进入 错误 状态 ， 因 





为 它 期 望 发 现 一 个 拥有 足够 详尽 oplog 的 成 员 ， 然 后 继续 同步 oplog， 最 后 回 到 


正常 状态 。 


ARBITER 


在 正常 的 操作 中 ， 仲 裁 者 应 该 始终 处 于 ARBITER 状态 。 





系统 出 现 问 题 时 会 处 于 下 面 这 些 状态 。 


。 DOWN 


如 果 一 个 正常 运行 的 成 员 变 得 不 可 达 ， 它 就 处 于 DOWN 状态 。 注 意 ， 如 果 有 成 员 
被 报告 为 DOWN 状态 ， 它 有 可 能 仍然 处 于 正常 运行 状态 ， 不 可 达 的 原因 可 能 是 网 


络 问题 。 


。 UNKNOWN 























如 果 一 个 成 员 无 法 到 达 其 他 任何 成 员 ， 其 他 成 员 就 无 法 知道 它 处 于 什么 状态 ， 会 
将 其 报告 为 UNKNOWN 状态 。 通 常 ， 这 表明 这 个 未 知 状态 的 成 员 挂 措 了 ， 或 者 是 








两 个 成 员 之 间 存 在 网 络 访问 问题 。 

。 REMOVED 
当成 员 被 移出 副本 集 时 ， 它 就 处 于 这 个 状态 。 如 果 
副本 集中 ， 它 就 会 回 到 “正常 ”状态 。 














。 ROLLBACK 


被 移 








的 成 员 又 被 重新 添加 到 


如 果 成 员 正 在 进行 数据 回 深 ( 详 见 10.4 节 )， 它 就 处 于 ROLLBACK 状态 。 回 滚 过 
程 结 束 时 ， 服 务 器 会 转换 为 RECOVERING 状态 ， 然 后 成 为 备份 节点 。 
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。 FATAL 
如 果 一 个 成 员 发 生 了 不 可 挽回 的 错误 ， 也 不 再 尝试 恢复 正常 的 话 ， 它 就 处 于 
FATAL 状态 。 应 该 查看 详细 日 志 来 查 明 为 何 这 个 成 员 处 于 FATAL 状态 (使 用 
"replSet FATAL" 关键 词 在 日 志 上 执行 grep， 就 可 以 找到 成 员 进 入 FATAL 状 
态 的 时 间 点 )。 这 时 ， 通 常 应 该 重启 服务 器 ， 进 行 重新 同步 或 者 是 从 备份 中 恢复 。 


10.3 ”选举 


当 一 个 成 员 无 法 到 达 主 节点 时 ， 它 就 会 申请 被 选举 为 主 节 点 。 和 希望 被 选举 为 主 节 点 
的 成 员 ， 会 向 它 能 到 达 的 所 有 成 员 发 送 通知 。 如 果 这 个 成 员 不 符合 候选 人 要 求 ， 其 
他 成 员 可 能 会 知道 相关 原因 : 这 个 成 员 的 数据 落后 于 副本 集 ， 或 者 是 已 经 有 一 个 运 
行 中 的 主 市 点 (那个 力求 被 选举 成 为 主 节 点 的 成 员 无 法 到 达 这 个 主 市 点 )。 在 这 些 情 
况 下 ， 其 他 成 员 不 会 允许 进行 选举 。 


假如 没有 反对 的 理由 ， 其 他 成 员 就 会 对 这 个 成 员 进行 选举 投票 。 如 果 这 个 成 员 得 到 
副本 集中 “大 多 数 ” 赞 成 票 ， 它 就 选举 成 功 ， 会 转换 到 主 市 点 状态 。 如 果 达 不 到 
“大 多 数 ” 的 要 求 ， 那 么 选举 失败 ， 它 仍然 处 于 备份 节点 状态 ， 之 后 还 可 以 再 次 申请 
被 选举 为 主 闻 点 。 主 节点 会 一 直 处 于 主 节 点 状态 ， 除 非 它 由 于 不 再 请 足 “ 大 多 数 ” 
的 要 求 或 者 挂 了 而 退位 ， 另 外 ， 副 本 集 被 重新 配置 也 会 导致 主 节 点 退位 。 


假如 网 络 状 况 良好 ,“ 大 多 数 ” 服 务 器 也 都 在 正常 运行 ， 那 么 选举 过 程 是 很 快 的 。 如 
果 主 节点 不 可 用 ，2 秒 钟 (之 前 讲 过 ， 心 跳 的 间隔 是 2 秒 ) 之 内 就 会 有 成 员 发 现 这 
个 问题 ， 然 后 会 立即 开始 选举 ， 整 个 选举 过 程 只 会 花费 儿 毫 秒 。 但 是 ， 实 际 情况 可 
能 不 会 这 么 理想 :网络 问题 ， 或 者 是 服务 器 过 载 导 致 响应 缓慢 ， 都 可 能 触发 选举 。 
在 这 种 情况 下 ， 心 跳 会 在 最 多 20 秒 之 后 超时 。 如 果 选 举 打 成 平局 ， 每 个 成 员 都 需要 
等 待 30 秒 才能 开始 下 一 次 选举 。 所 以 ， 如 果 有 太 多 错误 发 生 的 话 ， 选 举 可 能 会 花费 
几 分 钟 的 时 间 。 


10.4 回 滚 


根据 上 一 市 讲述 的 选举 过 程 ， 如 果 主 节点 执行 了 一 个 写 请 求 之 后 挂 了 ， 但 是 备份 市 
点 还 没 来 得 及 复制 这 次 操作 ， 那 么 新 选举 出 来 的 主 节 点 就 会 漏 掉 这 次 写 操作 。 假 如 
有 两 个 数据 中 心 ， 甚 中 一 个 数据 中 心 拥有 一 个 主 节 点 和 一 个 备份 节点 ， 另 一 个 数据 
中 心 拥 有 三 个 备份 节点 ， 如 图 10-2 所 示 。 
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10-2: 一 个 可 能 的 双 数 据 中 心 配置 





如 果 这 两 个 数据 中 心 之 间 出 现 了 网 络 故障 ， 如 图 10-3 所 示 。 其 中 左边 第 一 个 数据 中 
心 最 后 的 操作 是 126， 但 是 126 操作 还 没有 被 复制 到 另 边 的 数据 中 心 。 























10-3; 在 不 同 数据 中 心 之 间 进 行 复制 比 在 单一 数据 中 心 内 要 慢 


右边 的 数据 中 心 仍然 满足 副本 集 “ 大 多 数 ” 的 要 求 (一 共 5 台 服 务 器 ，3 台 即 可 满 
足 要 求 )。 因 此 ， 其 中 一 台 服 务 器 会 被 选举 成 为 新 的 主 节 点 ， 这 个 新 的 主 节 点 会 继续 








处 理 后 续 的 写 和 人 操作， 如 





图 10-4 所 示 。 

















10-4: 右边 数据 中 心 未 能 完成 复制 左边 数据 中 心 的 写 操作 
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网 络 恢复 之 后 ,左边 数据 中 心 的 服务 器 就 会 从 其 他 服务 器 开始 同步 126 之 后 的 操作 ， 
但 是 无 法 找到 这 个 操作 。 这 种 情况 发 生 的 时 候 ，A 和 B 会 进入 回 深 (rollback) 过 
程 。 回 深 会 将 失败 之 前 未 复制 的 操作 撤消 。 拥 有 126 a 
心服 务 器 的 oplog 中 寻找 共同 的 操作 点 。 之 后 会 定位 到 125 操作 ， 这 是 两 个 数据 中 
心 相 匹配 的 最 后 一 个 操作 。 图 10-5 显示 了 oplog 的 情况 


A 
四 四 四 四 四 四 
B 


10-5: 图 中 两 个 成 员 的 oplog 有 冲突 : 很 显然 ,A 的 126-128 操作 被 复制 尼 前 ，A 崩溃 了 ， 
所 以 这 些 操作 并 没有 出 现在 B 中 〈B 拥有 更 多 的 最 近 操作 )。A 必须 先 将 126-128 
这 3 个 操作 回 滚 ， 然 后 才能 重新 进行 同步 


这 时 ， 服 务 器 会 查看 这 些 没 有 被 复制 的 操作 ， 将 受 这 些 操作 影响 的 文档 写 入 一 
个 .bson 文件 ， 保 存在 数据 目录 下 的 rollback 目录 中 。 如 果 126 是 一 个 更 新 操作 ， 
服务 器 会 将 被 126 更 新 的 文档 写 入 collectionName.bson 文件 。 然 后 会 从 当前 主 节 点 
中 复制 这 个 文档 。 


下 面 是 一 次 典型 的 回 滚 过 程 产生 的 日 志 : 























Fri Oct 7 06:30:35 [rsSync] replSet Syncing to: Server-1 
Fri Oct 7 06:30:35 [rsSync] replSet our last op time written: Oct 7 
06:30:05:3 


Fri Oct 7 06:30:35 [rsSync] replset source's GTE: Oct 7 06:30:31:1 

Fri Oct 7 06:30:35 [rsSync] replSet rollback 0 

Fri Oct 7 06:30:35 [rsSync] replSet ROLLBACK 

Fri Oct 7 06:30:35 [rsSync] replSet rollback 1 

Fri Oct 7 06:30:35 [rsSync] replSet rollback 2 NndCommonPoint 

Fri Oct 7 06:30:35 [rsSync] replSet info rollback our last optime: Oct 7 
06:30:05:3 

Fri Oct 7 06:30:35 [rsSync] replSet info rollback their last optime: Oct 7 
06:30:31:2 

Fri Oct 7 06:30:35 [rsSync] replSet info rollback diff in end of log times: 
-26 seconds 


Fri Oct 7 06:30:35 [rsSync] replSet rollback found matching events at Oct 7 
06:30:03:4118 


Fri Oct 7 06:30:35 [rsSync] replSet rollback Nndcommonpoint scanned : 6 
Fri Oct 7 06:30:35 [rsSync] replSet replSet rollback 3 Nxup 

Fri Oct 7 06:30:35 [rsSync] replSet rollback 3.5 

Fri Oct 7 06:30:35 [rsSync] replSet rollback 4 n:3 

Fri Oct 7 06:30:35 [rsSync] replSet minvalid=0ct 7 06:30:31 4e8ed4c7:2 





瑟 串 





1 本 集 的 组 成 | 197 


Fri Oct 7 06:30:35 [rsSync] replSet rollback 4.6 

Fri Oct 7 06:30:35 [rsSync] replSet rollback 4.7 

Fri Oct 7 06:30:35 [rsSync] replSet rollback 5 d:6 u:0 
Fri Oct 7 06:30:35 [rsSync] replSet rollback 6 

Fri Oct 7 06:30:35 [rsSync] replSet rollback 7 

Fri Oct 7 06:30:35 [rsSync] replSet rollback done 

Fri Oct 7 06:30:35 [rsSync] replSet RECOVERING 

Fri Oct 7 06:30:36 [rsSync] replSet syncing to: server-1 
Fri Oct 7 06:30:36 [rsSync] replSet SECONDARY 


服务 器 开始 从 另 一 个 成 员 进 行 同步 (在 本 例 中 是 server-1)， 但 是 发 现 无 法 在 同 
步 源 中 找到 自己 的 最 后 一 次 操作 。 这 时 ， 它 就 会 切换 到 回 深 状态 ("replSet 
ROLLBACK" ) 进行 回 深 。 

第 2 步 ， 服 务 器 在 两 个 oplog 中 找到 一 个 共同 的 点 ， 是 26 秒 之 前 的 一 个 操作 。 然 后 
服务 器 就 会 将 最 近 26 秒 内 执行 的 操作 从 oplog 中 撤销 。 回 滚 完成 之 后 ， 服 务 器 就 进 
入 RECOVERING 状态 开始 进行 正常 同步 。 

如 果 要 将 被 回 滚 的 操作 应 用 到 当前 主 节 点 ， 首 先 使 用 mongorestore 命令 将 它们 加 
载 到 一 个 临时 集合 : 


$ mongorestore --db stage --collection stuff \ 
> /data/db/rollback/important.stuff.2012-12-19T18-27-14.0.bson 


现在 应 该 在 shell 中 将 这 些 文档 与 同步 后 的 集合 进行 比较 。 例 如 ， 如 果 有 人 在 被 回 滚 
的 成 员 上 创建 了 一 个 “普通 ”索引 ， 而 当前 主 节 点 创建 了 一 个 唯一 索引 ， 那 么 就 需 
要 确保 被 回 深 的 数据 中 没有 重复 文档 ， 如 果 有 的 话 要 去 除 重复 。 


如 果 希 望 保留 staging 集合 中 当前 版 本 的 文档 ， 可 以 将 其 载 入 主 集 合 : 



































> staging.stuff.find().forEach(function(doc) { 
。 prod.stuff.insert(doc); 

. }) 
对 于 只 人 允许 插入 的 集合 ， 可 以 直接 将 被 回 滚 的 文档 插入 主 集合 。 但 是 ， 如 果 是 在 集 
合 上 执行 更 新 操作 ， 在 合并 回 滚 数据 时 就 要 非常 小 心地 对 待 。 
一 个 经 常会 被 误 用 的 成 员 配 置 选项 是 设置 每 个 成 员 的 投票 数量 。 改 变 成 员 的 投票 数 
量 通常 不 会 得 到 想 要 的 结果 ， 而 且 很 可 能 会 导致 大 量 的 回 滚 操作 (所 以 上 一 章 的 成 
员 属 性 列表 中 没有 介绍 这 个 选项 ) 。 除 非 做 好 了 定期 处 理 回 滚 的 准备 ， 否 则 不 要 改变 
成 员 的 投票 数量 。 


第 11 章 会 讲述 如 何 阻 止 回 深 。 
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如 果 回 滚 失败 

某 些 情况 下 ， 如 果 要 回 深 的 内 容 太 多 ，MongoDB 可 能 承受 不 了 。 如 果 要 回 滚 的 数 
据 量 大 于 300 MB， 或 者 要 回 深 30 分 钟 以 上 的 操作 ， 回 滚 就 会 失败 。 对 于 回 滚 失 败 
的 节点 ， 必 须要 重新 同步 。 

这 种 情况 最 常见 的 原因 是 备份 节点 远 远 落后 于 主 节 点 ， 而 这 时 主 节 点 却 挂 了 。 如 果 
其 中 一 个 备份 节点 成 为 主 节 点 ， 这 个 主 节 点 与 旧 的 主 节 点 相 比 ， 缺 少 很 多 操作 。 为 
了 保证 成 员 不 会 在 回 滨 中 失败 ， 最 好 的 方式 是 保持 备份 节点 的 数据 尽 可 能 最 新 。 
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从 应 用 程序 连接 副本 集 





本 章 介绍 如 何在 应 用 程序 中 与 副本 集 进行 交互 ， 包 括 : 


。 如 何 连接 到 副本 集 以 及 故障 转移 的 工作 机 制 ， 
。 等 待 写 人 复制 ， 
。 将 读 请 求 路 由 到 正确 的 成 员 。 


11.1 客户 端 到 副本 集 的 连接 

从 应 用 程序 的 角度 来 说 ， 使 用 副本 集 与 使 用 单 台 服 务 器 很 像 。 默 认 情 况 下 ， 驱 动 程 
序 会 连接 到 主 节 点 ， 并 且 将 所 有 请 求 都 路 由 到 主 节 点 。 应 用 程序 可 以 像 使 用 单 台 服 
务 器 一 样 进 行 读 和 写 ， 副 本 集会 在 后 台 默 默 处 理 热 备 份 。 


连接 副本 集 与 连接 单 台 服务 器 非常 像 。 在 驱动 程序 中 使 用 与 MongoCLient 等 价 的 
对 象 ， 并 且 提 供 一 个 希望 连接 到 的 副本 集 种 子 (seed) 列表 。 种 子 是 副本 集成 员 ， 
并 不 需要 将 所 有 成 员 都 列 出 来 (虽然 可 以 这 么 做 ) : 驱动 程序 连接 到 某 个 种 子 服务 
器 之 后 ， 就 能 够 得 到 其 他 成 员 的 地 址 。 一 个 常用 的 连接 字符 串 如 下 所 示 : 











"mongodb://server-1:27017, server-2:27017" 
具体 可 以 查看 相关 的 驱动 程序 文档 。 
当主 节点 挂 掉 之 后 ， 驱 动 程序 会 尽快 自动 找到 新 的 主 节 点 〈 只 要 新 的 主 节 点 被 选举 
出 来 ) ， 并 且 将 请 求 路 由 到 新 的 主 节 上 点。 但是， 如果 没有 可 达 的 主 节 点 ， 应 用 程序 就 
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无 法 执行 写 操作 。 


在 选举 过 程 中 ， 主 节点 可 能 会 暂时 不 可 用 ， 如 果 没 有 可 达 的 成 员 能 够 成 为 主 节 点 ， 
主 节 点 可 能 长 时 间 不 可 用 。 黑 认 情 况 下 ， 驱 动 程序 在 这 段 时 间 内 不 会 处 理 任何 请 求 
( 读 或 写 ) 。 但 是 ， 可 以 选择 将 读 请 求 路 由 到 备份 节点 。 


从 用 户 的 角度 来 说 ， 和 希望 驱动 程序 能 够 隐藏 掉 整 个 选举 过 程 ( 主 市 点 退位 ， 新 的 主 
市 点 被 选举 出 来 )。 但 是 ， 在 很 多 情况 下 这 是 不 可 能 做 到 的 ， 所 以 没有 哪个 驱动 程 
序 能 够 这 样 处 理 故 障 转移 。 首 先 ， 驱 动 程序 仅仅 能 够 将 没有 主 节 点 的 情况 隐瞒 一 段 
时 间 : 副本 集 不 能 在 没有 主 市 点 的 情况 下 永久 存在 。 其 次 ， 如 果 有 操作 失败 了 ， 了 驱 
动 程序 就 知道 是 主 节点 挂 了 ， 但 是 无 法 知道 主 节 点 在 挂 掉 之 前 是 否 已 经 正确 处 理 本 
次 请 求 。 所 以 ， 驱 动 程序 将 这 个 问题 留 给 了 用 户 : 如 果 新 的 主 节点 很 快 被 选举 出 来 ， 
要 不 要 在 新 的 主 市 点 上 重新 操作 ? 是 否 要 假设 最 后 一 次 请 求 已 经 被 旧 的 主 市 点 处 理 
完成 ? 是 否 要 检查 新 的 主 节 点 以 确保 它 同步 了 最 后 的 操作 ? 对 这 些 具体 问题 的 处 理 
都 取决 于 你 的 应 用 程序 。 


通常 ， 驱 动 程序 没有 办 法 判断 某 次 操作 是 否 在 服务 器 崩溃 之 前 成 功 处 理 ， 但 是 应 用 
程序 可 以 自己 实现 相应 的 解决 方案 。 比 如 ， 如 果 驱 动 程序 发 出 插入 {"_id" : 1} 
文档 的 请 求 之 后 收 到 主 节 点 崩溃 的 错误 ， 连 接 到 新 的 主 节 点 之 后 ， 可 以 查询 主 节点 
中 是 否 有 {"” id"” : 1} 这 个 文档 。 


11.2 等待 写 入 复制 


前 面 章 市 中 已 经 提 到 ， 如 果 和 希望 不 管 发 生 什 么 都 将 写 入 操作 保存 到 副本 集中 ， 那 么 
必须 要 确保 写 入 操作 被 同步 到 了 副本 集 的 “大 多 数 ”。 


之 前 ， 我 们 使 用 getLastError 命令 检查 写 入 是 否 成 功 。 也 可 以 使 用 这 个 命令 确保 
写 入 操作 被 复制 到 备份 节点 。 参 数 "w" 会 强制 要 求 getLastError 等 待 ， 一 直到 给 
定数 量 的 成 员 都 执行 完了 最 后 的 写 入 操作 。MongoDB 有 一 个 特殊 的 关键 字 可 以 传 
递 给 "w" ， 就 是 "majority"。 在 shell 中 它 如 下 所 示 : 




































































> db.runCommand({"getLastError" : 1, "w" : "majority"}) 
{ 
mn 
"Last0p"”: Timestamp(1346790783000, 1), 
"connectionId" : 2, 
"writtenTo" : [ 
{" id" :0 , "host" : "server-0" }, 
{" id" : 1, "host" : "server-1" }, 
{ "id" :3 , "host" : "server-3" } 
]， 
"wtime" : 76, 
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注意 ，getLastError 输出 信息 中 的 新 字段 "writtenTo"。 只 有 当 使 用 了 "w" 选项 
并 且 最 后 的 操作 被 复制 到 多 个 服务 器 时 才 会 有 这 个 字段 。 


假设 在 执行 这 个 命令 时 只 有 主 节点 和 一 个 仲裁 者 节点 可 用 ， 那 么 主 节 点 就 无 法 将 
这 个 写 操作 复制 到 副本 集中 的 任何 成 员 。getLastError 并 不 知道 应 该 等 待 多 久 ， 
所 以 它 会 一 直 等 竺 下去。 因此， 应 该 始终 为 wtimeout 选项 设置 一 个 合理 的 值 。 
"wtimeout" 是 getLastError 可 以 使 用 的 另 一 个 选项 ， 它 的 值 是 命令 的 超时 时 间 ， 
如 果 超 过 这 个 时 间 还 没有 返回 ， 就 会 返回 失败 : MongoDB 无 法 在 指定 时 间 内 将 写 
入 操作 复制 到 "w" 个 成 员 。 


下 列 代码 的 超时 时 间 是 1 秒 钟 : 





























> db.runCommand({"getLastError" : 1, "w" : "majority", "wtimeout" : 1000}) 








这 个 命令 可 能 会 由 于 多 种 原因 失败 : 其 他 成 员 可 能 挂 了 ， 可 能 落后 于 主 节 点 ， 也 可 
能 由 于 网 络 问题 不 可 访问 。 如 果 getLastError 超时 ， 应 用 程序 必须 要 对 这 种 情况 
作出 处 理 。 注 意 ，getLastError 超时 并 不 意味 着 写 操作 失败 了 ， 仅 仅 表 明 写 操作 
没 能 在 指定 时 间 内 复制 到 足够 多 的 成 员 。 写 操作 仍然 被 复制 到 了 一 些 成 员 ， 而 且 会 
尽快 传播 到 其 他 成 员 。 


通常 将 "w" 用 于 控制 写 入 速度 。MongoDB 的 写 入 速度 “ 太 快 "， 主 节点 上 执行 完 
写 入 操作 之 后 ， 备 份 市 点 还 来 不 及 跟 上 。 阻 止 这 种 行为 的 一 种 常用 方式 是 定期 调用 
getLastError,， 将 "w" 参数 指定 为 大 于 1 的 值 。 这 样 就 会 强制 这 个 连接 上 的 写 操 
作 一 直 等 待 直到 复制 成 功 。 注 意 ， 这 只 会 阻塞 这 个 连接 上 的 写 操作 : 其 他 连接 上 的 
写 操作 仍然 会 立即 执行 完成 并 返回 。 


如 果 和 希望 应 用 程序 的 行为 更 自然 更 健壮 ， 应 该 定期 调用 getLastError， 同 时 指定 
"majority" 和 一 个 合理 的 超时 时 间 。 如 果 这 个 命令 超时 了 ， 需 要 找 出 出 错 原因 。 














11.2.1 可 能 导致 错误 的 原因 

假设 应 用 程序 将 一 个 写 操作 发 送 给 主 节点 ， 然 后 调用 getLastError (不 使 用 
"majority" 选项 ) 收 到 写 入 成 功 的 反馈 ， 但 是 在 备份 节点 复制 这 个 写 操作 之 前 ， 
主 节点 月 江 了。 

现在 ， 应 用 程序 认为 可 以 访问 之 前 的 写 操作 (getLastError 命令 的 输出 信息 表明 
写 入 操作 成 功 完成 ) ， 但 是 副本 集中 的 当前 成 员 并 不 拥有 这 个 操作 的 副本 。 
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在 某 个 时 刻 ， 会 有 一 个 备份 节点 被 选举 为 新 的 主 节 点 ， 然 后 开始 接受 新 的 写 请 
求 。 当 之 前 的 主 节 点 恢复 之 后 ， 会 发 现 它 拥有 一 个 〈 或 几 个) 主 市 点 上 没有 的 写 操 
作 。 为 了 纠正 这 个 问题 ， 它 会 撤销 与 当前 主 节 点 不 一 致 的 操作 。 这 些 操作 不 会 丢 
失 ， 但 是 会 被 写 到 特殊 的 回 深 文件 中 ， 之 后 可 以 手动 将 这 些 操作 应 用 到 当前 主 节 点 。 
MongoDB 不 能 自动 应 用 这 些 写 操作 ， 因 为 这 些 写 操作 可 能 会 与 崩溃 之 后 产生 的 其 
他 操作 冲突 。 因 此 ， 这 些 操作 会 消失 ， 直 到 管理 员 将 这 些 操作 应 用 到 当前 主 节 点 。 


写 入 时 指定 majority 可 以 避免 这 种 情况 的 发 生 : 如 果 应 用 程序 最 初 使 用 "w" 
"majority" 并 且 得 到 了 写 入 成 功 的 确认 信息 ， 那 么 新 的 主 节点 就 拥有 之 前 执行 过 
的 写 操作 (一 个 成 员 必 须 足 够 新 ， 才 能 被 选举 为 主 节点 )。 如 果 getLastError 失 
败 ， 应 用 程序 就 会 知道 在 操作 被 复制 到 大 多 数 成 员 之 前 主 节 点 就 挂 了 ， 应 用 程序 可 
以 重新 执行 这 个 操作 。 


关于 回流 的 详细 信息 可 以 查看 第 10 章 。 
































11.2.2 "w" 的 其 他 值 
"majority" 并 不 是 唯一 一 个 可 以 传递 给 getLastError 的 "w" 参 数 的 值 ， 
MongoDB 允许 将 "w" 指定 为 任意 整数 ， 如 下 所 示 : 


> db.runCommand({"getLastError" : 1, "w" : 2, "wtimeout" : 500}) 
这 个 命令 会 一 直 等 待 ， 直 到 写 操 作 被 复制 到 两 个 成 员 ( 主 节点 和 一 个 备份 节点 )。 


注意 ，"w" 的 值 包含 了 主 节 点 。 如 果 希 望 写 操作 被 复制 到 n 个 备份 节点 ， 应 该 将 "w" 指 
定 为 n+1 (包括 主 节点 )。 将 "w" 设置 为 1 相当 于 没有 传人 "w" 选项 ， 因 为 MongoDB 
只 会 检查 主 节点 是 否 成 功 执行 了 写 操 作 ，getLastError 始终 会 做 这 样 的 检查 。 


使 用 常量 数值 的 次 端 在 于 ， 如 果 副 本 集 的 配置 发 生 了 变化 ， 就 需要 修改 你 的 应 用 程序 。 


11.3” 自 定 义 复制 保证 规则 


写 入 副本 集 的 “大 多 数 ” 成 员 被 认为 是 安全 写 入 。 然 而 ， 有 些 副 本 集 可 能 有 更 复杂 
的 要 求 : 可 能 会 希望 确保 写 操作 被 复制 到 每 个 数据 中 心中 至 少 一 台 服 务 器 上 ， 或 者 
是 被 复制 到 可 见 节 点 的 “大 多 数 ” 服 务 器 上 。 副 本 集 允 许 创 建 自 己 的 规则 ， 并 且 可 
以 传递 给 getLastError， 以 保证 写 操作 被 复制 到 所 需 的 服务 器 上 。 


11.3.1 保证 复制 到 每 个 数据 中 心 的 一 台 服 务 器 上 
相对 于 单个 数据 中 心 内 部 ， 不 同 数据 中 心 之 间 更 容易 发 生 网 络 故障 ， 相 对 于 多 个 数 
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据 中 心 同等 数量 的 服务 器 挂 掉 ， 整 个 数据 中 心 挂 掉 的 可 能 性 更 高 。 因 此 ， 可 能 你 希 
望 有 一 些 针对 数据 中 心 的 逻辑 来 保证 写 操 作成 功 执行 。 在 确认 成 功 之 前 ， 保 证 写 操 
作 被 复制 到 每 一 个 数据 中 心 ， 这 样 ， 万 一 某 个 数据 中 心 掉 线 了 ， 其 他 每 一 个 数据 中 
心 都 有 一 份 最 新 的 本 地 数据 副本 。 


要 实现 这 种 机 制 ， 首 先 按照 数据 中 心 对 成 员 分 类 。 可 以 在 副本 集 配 置 中 添加 一 个 


"tags" 字段 : 








> var config = rs.config() 

> config.members[0].tags = {"dc" : "us-east"} 
> config.members[1].tags = {"dc" : "us-east"} 
> config.members[2] .tags = {"dc" : "us-east"} 
> config.members[3].tags = {"dc" : "us-east"} 
> config.members[4].tags = {"dc" : "us-west"} 
> config.members[5].tags = {"dc" : "us-west"} 
> config.members[6] .tags = {"dc" : "us-west"} 


"tags" 字段 是 一 个 对 象 ， 每 个 成 员 可 以 拥有 多 个 标签 。 例 如 ，"us-east" 数据 中 
心 的 服务 器 可 能 是 "high quality" 服务 器 ， 这 样 的 话 ， 可 以 将 其 "tags" 字段 配 
置 为 {"dc": "us-east", "quality" : "high"}。 


第 二 步 是 创建 自己 的 规则 ， 可 以 通过 在 副本 集 配 置 中 创建 "getLastErrorMode" 字 
段 实现 。 每 条 规则 的 形式 都 是 "name"” : {"key"” : number}}。"name" 就 是 规则 
的 名 称 ， 名 称 应 该 能 够 表明 这 条 规则 所 做 的 事情 ， 方 便 客户 端 理解 ， 客 户 端 在 调用 
getLastError 时 才能 够 正确 选择 自己 需要 的 规则 。 在 本 例 中 ， 将 这 个 规则 命名 为 
"eachDC"， 或 者 更 抽象 一 点 ， 比 如 "user-level safe"。 


这 里 的 "key" 字段 就 是 标签 键 的 值 ， 所 以 在 这 个 例子 中 是 "dc"。 这 里 的 number 

是 需要 遵循 这 条 规则 的 分 组 的 数量 。 在 本 例 中 ，number 是 2 (因为 我 们 希望 写 操作 

被 复制 到 "us-east" 和 "us-west" 两 个 分 组 中 各 自 至 少 一 台 服 务 器 )。number 的 

意思 是 “保证 写 操 作 复 制 到 number 个 分 组 ， 每 个 分 组 内 至 少 一 台 服 务 器 上 ”。 

在 副本 集 配置 中 添加 "getLastErrorModes" 字段 ， 创 建 下 面 的 规则 ， 重 新 执行 配置 : 
> config.settings = {} 


> config.settings.getLastErrorModes = [{"eachDC" : {"dc" : 2}}] 
> rs.reconfig(config) 

















"getLastErrorModes" 位 于 副本 集 配置 中 的 "settings" 子 字段 ， 这 个 字段 下 面 
包含 一 些 副 本 集 级 别 的 可 选 设置 。 


现在 ， 可 以 对 写 操 作 应 用 这 条 规则 : 


> db.foo.insert({"x" : 1}) 
> db.runCommand({"getLastError" : 1, "w" : "eachDC", "wtimeout" : 1000}) 
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注意 ， 应 用 程序 开发 者 并 不 会 知道 到 底 有 哪些 服务 器 使 用 了 "eachDC" 规则 ， 而 且 
可 以 在 不 改变 应 用 程序 的 情况 下 任意 修改 具体 规则 。 可 以 添加 新 的 数据 中 心 ， 或 者 
是 更 改 副 本 集成 员 数 量 ， 而 应 用 程序 不 必 知 道 这 些 改变 。 


11.3.2 ”保证 写 操作 被 复制 到 可 见 节点 中 的 “大 多 数 ” 

通常 ， 隐 藏 节点 在 某 种 程度 上 是 二 等 公民 : 发 生 故 障 时 不 会 转移 到 隐藏 节点 ， 也 不 
能 将 读 操 作 路 由 到 隐藏 节点 。 你 可 能 只 关心 隐藏 节点 是 否 收 到 了 写 请 求 ， 剩 下 的 就 
交 给 隐藏 成 员 自己 去 解决 吧 。 


假设 我 们 拥有 5 个 成 员 ，hostg 到 host4， 其 中 host4 是 个 隐藏 成 员 。 我 们 希望 确 
保 写 操作 被 复制 到 非 隐 藏 节点 的 大 多 数 ， 也 就 是 host9、host1、host2 和 host3 
中 的 至 少 三 个 成 员 。 要 创建 这 样 一 条 规则 ， 首 先 为 非 隐 藏 节点 设置 标签 : 














> var config = rs.config() 


> config.members[0].tags = [{"normal" :; "A"}] 
> config.members[1].tags = [{"normal" : "B"}] 
> config.members[2].tags = [{"normal" : 

> config.members[3].tags = [{"normal" : "D"}] 


不 需要 为 隐藏 节点 (host4) 设置 标签 。 
现在 ， 为 这 些 服务 器 中 的 大 多 数 添加 这 条 规则 : 


> conNg.settings.getLastErrorModes = [{"visibleMajority" : {"normal" : 3}}] 
> rs.reconNg(conNg) 


然后 就 可 以 在 应 用 程序 中 使 用 这 条 规则 了 : 


> db.foo.insert({"x" : 1}) 
> db.runCommand({"getLastError" : 1, "w" : "visibleMajority", "wtimeout": 1000}) 


命令 会 一 直 等 待 ， 直 到 写 操作 被 复制 到 至 少 三 个 非 隐藏 节点 。 











11.3.3 ”创建 其 他 规则 

可 以 无 限制 地 创建 各 种 规则 。 记 住 ， 创 建 自 定义 的 复制 规则 有 两 个 步骤 。 

(1) 使 用 键 值 对 设置 成 员 的 "tags" 字段 。 这 里 的 键 用 于 描述 分 组 ， 可 能 会 有 
"data center"、"region" 或 者 "server Quality" 等 键 。 这 里 的 值 表 示 服 
务 器 所 属 的 分 组 。 例 如 ， 对 于 “data_center” 这 个 键 ， 可 以 将 一 些 服 务 器 标 
为 "us-east"， 将 另 一些 标 为 "us -west"， 其 他 的 标 为 "aust'"。 











(2) 基于 刚刚 创建 的 分 组 创建 规则 。 规 则 总 是 形 如 {"name" : {"key" 
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number}}， 表 示 写 操作 返回 成 功 之 前 需要 复制 到 至 少 number 个 分 组 ， 每 个 分 
组 内 的 一 台 服 务 器 上 。 例 如 ， 可 以 创建 一 个 {"twoDCs" : f{"data center" 

2}} 规则 ， 意 思 是 说 ， 在 写 操作 成 功 之 前 ， 需 要 确保 写 操作 被 复制 到 两 个 数 
据 中 心 ， 每 个 数据 中 心 内 至 少 一 台 服 务 器 上 。 


然后 就 可 以 在 getLastError 中 使 用 刚刚 创建 的 规则 了 。 


规则 是 一 种 非常 强大 的 副本 集 配置 方式 ， 虽然 它 理解 和 设置 起 来 都 有 些 复杂 。 除 非 
有 非常 特殊 的 复制 要 求 ， 否 则 使 用 "w" :"majority" 就 已 经 非常 安全 了 。 


11.4 将 读 请 求 发 送 到 备份 世 点 


默认 情况 下 ， 驱 动 程序 会 将 所 有 的 请 求 都 路 由 到 主 节点 。 这 通 第 也 正 是 你 需要 的 ， 
但 是 可 以 通过 设置 驱动 程序 的 读 取 首 选项 (read preferences) 配置 其 他 选项 。 可 以 
在 读 选 项 中 设置 需要 将 查询 路 由 到 的 服务 器 的 类 型 。 


将 读 请 求 发 送 到 备份 节点 通常 不 是 一 个 好 主意 。 虽 然 在 某 些 特定 情况 下 这 是 有 意义 
的 ,但 是 通常 应 该 将 全 部 请 求 都 路 由 到 主 市 点 。 如 果 你 正在 考虑 将 读 请 求 发 送 到 备 
份 节 点 ， 请 先 从 各 个 方面 好 好 权衡 之 后 再 做 决定 。 本 市 会 说 明 不 建议 这 么 做 的 原因 ， 
也 会 介绍 需要 这 么 做 的 特定 情况 。 


11.4.1 ”出 于 一 致 性 考虑 
对 一 致 性 要 求 非常 高 的 应 用 程序 不 应 该 从 备份 节点 读 取 数 据 。 


备份 节点 通常 会 落后 主 节 点 儿 毫 秒 ， 但 是 ， 不 能 保证 一 定 是 这 样 。 有 时 ， 由 于 加 载 
问题 、 配 置 错 误 、 网 络 故 障 等 原因 ， 备 份 节 点 可 能 会 落后 于 主 节 点 儿 分 钟 、 几 个 小 
时 其 至 儿 天 。 客 户 端 驱动 程序 并 不 知道 备份 市 点 的 数据 有 多 新 ， 所 以 如 果 将 读 请 求 
发 送 给 一 个 远 远 落后 于 主 节 点 的 备份 节点 ， 客 户 端 也 不 会 感觉 到 任何 问题 。 可 以 将 
备份 节点 隐藏 掉 ， 以 避免 客户 端 读 取 它 ， 但 是 这 是 一 个 手动 过 程 。 如 果 你 的 应 用 程 
序 需 要 读 取 最 新 的 数据 ， 那 就 不 要 从 备份 节点 读 取 数 据 。 


如 果 应 用 程序 需要 读 取 它 自己 的 写 操作 (例如 ， 先 插入 一 个 文档 ， 然 后 再 查询 它 )， 
那么 不 应 该 将 写 请 求 发 送 给 备份 节点 〈 除 非 写 操作 像 前 面 那 样 ， 使 用 "w" 在 返回 之 
前 被 复制 到 所 有 备份 节点 )。 否 则 的 话 ， 可 能 会 出 现 应 用 程序 成 功 执行 了 一 次 写 操 
作 ， 却 读 不 到 这 个 值 的 情况 〈 因 为 读 请 求 被 发 送 给 了 备份 节点 ， 而 之 前 的 写 操作 还 
没有 被 复制 到 这 个 备份 节点 )。 客 户 端 发 送 请 求 的 速度 可 能 会 比 备份 节点 复制 操作 的 
速度 要 快 。 
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为 了 能 够 始终 将 写 请 求 发 送 给 主 节 点 ， 需 要 将 读 选项 设置 为 Primary (或 者 不 管 
它 ， 上 默认 就 是 Primary)。 如 果 没 有 主 市 点 ， 查 询 就 会 出 错 。 这 就 是 说 ， 如 有 果 主 市 
点 挂 了 ， 应 用 程序 就 不 能 执行 查询 了 。 但 是 ， 如 果 你 的 应 用 程序 需要 在 故障 转移 期 
间或 者 出 现 网 络 故障 时 正常 运行 ， 或 者 不 接受 陈旧 的 数据 ， 那 么 这 就 是 一 个 可 接受 
的 选项 。 


11.4.2 出 于 负载 的 考虑 

许多 用 户 会 将 读 请 求 发 送 给 备份 节点 ， 以 便 实现 分 布 式 负载 。 例 如 ， 如 果 你 的 服务 
器 每 秒 只 能 处 理 10 000 次 查询 ， 而 你 需要 进行 30 000 次 查询 ， 可 能 就 需要 设置 几 
个 备份 节点 ， 并 且 让 它们 分 担 一 些 数 据 加 载 的 工作 。 但 是 ， 这 种 扩展 方式 非常 危险 ， 
很 容易 导致 系统 意外 过 载 ， 一 旦 出 现 这 种 问题 ， 很 难 恢复 。 


假设 你 遇 到 了 上 面 提 到 的 情况 : 每 秒 30 000 次 读 请 求 。 你 决定 创建 一 个 拥有 4 个 成 
员 的 副本 集 : 每 个 备份 节点 的 压力 都 在 可 承受 范围 内 ， 整 个 系统 也 在 正常 运转 。 


后 来 ， 某 一 个 备份 节点 崩溃 了 。 


现在 剩余 的 每 个 成 员 的 负载 都 是 100%。 如 果 需 要 恢复 刚刚 崩溃 的 成 员 ， 它 就 需要 
从 其 他 成 员 处 复制 数据 ， 这 就 会 导致 其 他 成 员 过 载 。 服 务 器 过 载 经 党 导致 性 能 变 慢 ， 
副本 集 性 能 进一步 降低 ， 然 后 强制 其 他 成 员 承 担 更 多 的 负载 ， 导 致 这 些 成 员 变 得 更 
这 是 一 个 恶性 死 循 环 。 


过 载 会 导致 副本 集 性 能 降低 ， 然 后 会 导致 剩余 的 备份 方 点 远 远 落后 于 主 市 点 。 突 然 
间 ， 你 的 副本 集中 就 有 一 个 成 员 崩 涡 了 ， 还 有 一 个 成 员 远 远 落 后 于 主 节 点 ， 导 致 副 
本 集 的 所 有 成 员 都 过 载 了 ， 进 而 整个 副本 集 都 没有 喘息 的 空间 。 

如 果 明 确 知道 每 台 服 务 器 能 够 承受 的 负载 ， 你 可 能 会 觉得 自己 能 够 更 好 地 应 对 这 种 
情况 : 使 用 5 台 服 务 器 ， 而 不 是 4 台 ， 这 样 如 果 一 台 服 务 器 崩溃 ， 并 不 会 导致 副本 
集 过 载 。 但 是 ， 即 使 你 的 计划 非常 完美 (只 有 预期 数量 的 服务 器 可 能 会 挂 掉 ) ， 仍 然 
需要 处 理 其 他 服务 器 负载 过 大 的 情况 。 


一 个 更 好 的 选择 是 ， 使 用 分 片 作 分 布 式 负载 。 第 13 章 介 绍 分 片 相关 的 知识 。 
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11.4.3” 何 时 可 以 从 备份 节点 读 取 数据 

在 某 些 情况 下 ， 将 读 请 求 发 送 给 备份 节点 是 合理 的 。 例 如 ， 你 可 能 希望 应 用 程序 在 
主 节点 挂 掉 时 仍然 能 够 执行 读 操作 〈 而 且 你 并 不 在 意 读 到 的 数据 是 否 是 最 新 的 ) 。 
是 最 常见 的 将 读 请 求 发 给 送 备份 节点 的 原因 : 失去 主 节 的 时 ， 应 用 程序 进入 只 读 状 
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态 。 这 种 读 选 项 叫做 主 节点 优先 (primary preferred ) 。 


从 备份 节点 读 取 数据 有 一 个 常见 的 参数 是 获得 低 延 迟 的 数据 。 可 以 将 读 选 项 设置 为 
Nearest， 以 便 将 请 求 路 由 到 延迟 最 低 的 成 员 (根据 驱动 程序 到 副本 集成 员 的 ping 
时 间 )。 如 果 你 的 应 用 程序 需要 从 多 个 数据 中 心中 读 取 到 最 低 延 迟 的 同一 个 文档 ， 这 
是 唯一 的 方法 。 如 果 你 的 文档 与 位 置 的 相关 性 更 大 (在 这 个 数据 中 心 内 的 应 用 服务 
器 需要 得 到 某 些 文档 的 最 低 延 迟 版 本 ， 而 另 一 个 数据 中 心 内 的 应 用 服务 器 需要 得 到 
另 一 些 文档 的 最 低 延 迟 版 本 ) ， 那 就 应 该 使 用 分 片 。 注 意 ， 如 果 应 用 程序 要 求 低 延迟 
的 读 和 写 ， 那 必须 要 使 用 分 片 : 副本 集 只 允许 在 主 市 点 上 进行 写 操作 (不 管 主 市 点 
在 什么 位 置 )。 


如 果 要 从 一 个 落后 的 备份 厄 点 读 取 数据 ， 就 要 辆 牲 一 致 性 。 另 一 方面 ， 如 果 希 望 写 
操作 返回 之 前 被 复制 到 所 有 副本 集成 员 ， 就 要 牺牲 写 入 速度 。 


如 果 应 用 程序 能 够 接受 任何 陈旧 程序 的 数据 ， 那 就 可 以 使 用 Secondary 或 者 
Secondary preferred 读 选 项 。Secondary 始终 会 将 读 请 求 发 送 给 备份 节点 。 如 
果 设 有 可 用 的 备份 节点 ， 请 求 就 会 出 错 ， 而 不 是 重新 将 读 请 求 发 送 给 主 节 点 。 对 于 
不 在 平 数据 新 旧 程 度 并 且 和 希望 主 节 点 只 处 理 写 请 求 的 应 用 程序 来 说 ， 这 是 一 种 可 行 
的 方式 。 如 果 对 于 数据 新 旧 程度 有 要 求 ， 不 建议 使 用 这 种 方式 。 


Secondary preferred 会 优先 将 读 请 求 路 由 到 可 用 的 备份 节点 。 如 果 备 份 节点 都 
不 可 用 ， 请 求 就 会 被 发 送 到 主 节 点 。 


有 时 ， 读 负载 与 写 负载 完全 不 同 : 读 到 的 数据 与 写 入 的 数据 是 完全 不 同 的 。 为 了 做 
离线 处 理 ， 你 可 能 希望 创建 很 多 索引 ， 但 是 又 不 想 将 这 些 索引 创建 在 主 节 点 上 。 在 
这 种 情况 下 ， 可 以 设置 一 个 与 主 节 点 拥有 不 同 索 引 的 备份 节点 。 如 果 和 希望 以 这 种 方 
式 使 用 备份 节点 ， 最 好 是 使 用 驱动 程序 创建 一 个 直接 连接 到 目标 备份 节点 的 连接 ， 
而 不 是 连接 到 副本 集 。 


应 该 根据 应 用 程序 的 实际 需要 选择 合适 的 选项 。 也 可 以 将 多 个 选项 组 合 在 一 起 使 
用 : 如 果菜 些 读 请 求 必须 从 主 布 点 读 取 数 据 ， 那 就 对 这 些 请 求 使 用 Primary 选项 。 
如 果 另 一 些 读 请 求 并 不 要 求 数 据 是 最 新 的 ， 那 么 可 以 对 这 些 读 请 求 使 用 Primary 
preferred 选项 。 如 果菜 些 请 求 对 低 迟 延 的 要 求 大 过 一 致 性 要 求 ， 那 么 可 以 使 用 
Nearest 选项 。 
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本 章 介绍 副本 集 管理 的 相关 知识 ， 包 括 ; 


。 维护 独立 的 成 员 ; 

。 在 多 种 不 同情 况 下 配置 副本 集 ， 

。 获取 oplog 相关 信息 ， 以 及 调整 oplog 大 小 ; 
。 特殊 的 副本 集 配 置 ， 

。 从 主 从 模式 切换 到 副本 集 模式 。 


12.1 以 单机 模式 启动 成 员 


许多 维护 工作 不 能 在 备份 节点 上 进行 (因为 要 执行 写 操作 )， 也 不 能 在 主 节点 上 进 
行 。 后 面 几 节 会 经 常 提 到 以 单机 模式 (standalone mode) 启动 服务 器 。 这 是 指 要 重 
启 成 员 服 务 器 ， 让 它 成 为 一 个 单机 运行 的 服务 器 ， 而 不 再 是 一 个 副本 集成 员 (这 只 
是 临时 的 )。 


在 以 单机 模式 启动 服务 器 之 前 ， 先 看 一 下 服务 器 的 命令 行 参数 











> db.serverCmdLineOpts() 
{ 
"argv" : [ "mongod", "-f", "/var/lib/mongod.conf" ], 
"parsed" : { 
"replSet": "mySet", 
"port": "27017", 
"dbpath": "/var/lib/db" 
}, 
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"ok" : 1 
} 

如 果 要 对 这 台 服 务 器 进行 维护 ， 可 以 重启 服务 器 ， 重 启 时 不 使 用 replSet 选项 。 这 

样 它 就 会 成 为 一 个 单机 的 mongod， 可 以 对 其 进行 读 和 写 。 我 们 不 希望 副本 集中 的 

其 他 服务 器 联系 到 这 台 服 务 器 ， 所 以 可 以 让 它 监听 不 同 的 端口 (这 样 副 本 集 的 其 他 

成 员 就 找 不 到 它 了 )。 最 后 ， 保 持 dbpath 的 值 不 变 ， 因 为 重启 后 要 对 这 台 服 务 器 的 

数据 做 一 些 操 作 。 好 了 ， 我 们 最 终 可 以 用 下 面 这 样 的 参数 启动 服务 器 : 


$ mongod --port 30000 --dbpath /var/lib/db 











现在 这 台 服 务 器 已 经 在 单机 模式 中 运行 了 ， 监 听 着 30000 端口 的 连接 请 求 。 副 本 集 
中 的 其 他 成 员 仍 然 会 试图 连接 到 它 的 27017 端口 ， 所 以 会 连接 失败 ， 其 他 成 员 就 会 
以 为 这 人 台 服 务 器 挂 掉 了 。 


当 在 这 人 台 服 务 器 上 执行 完 维护 工作 之 后 ， 可 以 以 最 原始 的 参数 重新 启动 它 。 局 动 之 后 ， 
它 会 自动 与 副本 集中 的 其 他 成 员 进 行 同步 ， 将 维护 期 间 落 下 的 操作 全 部 复制 过 来 。 


12.2 副本 集 配 置 


副本 集 配置 总 是 以 一 个 文档 的 形式 保存 在 local.system.replSet 集合 中 。 副 本 集中 所 
有 成 员 的 这 个 文档 都 是 相同 的 。 绝 对 不 要 使 用 update 更 新 这 个 文档 ， 应 该 使 用 rs 
辅助 函数 或 者 repLSetReconfig 命令 修改 副本 集 配置 。 























12.2.1 创建 副本 集 
创建 副本 集 的 步骤 很 简单 ， 首 先 启动 所 有 成 员 服务 器 ， 然 后 使 用 rs .initiate 命 
令 将 配置 文件 传递 给 其 中 一 个 成 员 ， 





> var config = { 
， "_id" :; setName, 
. "members" : [ 
{"_id" : 0, "host" :; host1}, 
{" d,s Lr host .2 host2y, 
人 {"_id" : 2, "host" : host3} 
.1]} 


> rs.initiate(config) 


应 该 总 是 传递 一 个 配置 对 象 给 rs.initiate， 耕 则 MongoDB 会 自动 生成 一 个 针对 
单 成 员 副 本 集 的 配置 ， 其 中 的 主机 名 可 能 不 是 你 希望 的 。 

只 需要 对 副本 集中 的 一 个 成 员 调 用 rs.initiate 就 可 以 了 。 收 到 initiate 命令 
的 成 员 会 自动 将 配置 文件 传递 给 副本 集中 的 其 他 成 员 。 
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12.2.2 ”修改 副本 集成 员 

向 副本 集中 添加 新 成 员 时 ， 这 个 新 成 员 的 数据 目录 要 么 是 空 的 (在 这 种 情况 下 ， 新 
成 员 会 执行 初始 化 同步 )， 要 么 新 成 员 拥 有 一 份 其 他 成 员 的 数据 副本 。 关 于 副本 集成 
员 备 份 和 恢复 相关 的 知识 ， 可 以 查看 第 22 章 。 

连接 到 主 节 点 并 且 添 加 新 成 员 : 


> rs.add("spock:27017") 








也 可 以 以 文档 的 形式 为 新 成 员 指 定 更 复杂 的 配置 : 
> rs.add({" id" : 5, "host" : "spock:27017", "priority" : 0, "hidden" : true}) 
可 以 根据 "host" 字段 将 成 员 从 副本 集中 移 除 : 


> rs.remove("spock:27017") 








可 以 通过 rs. reconfig 修改 副本 集成 员 的 配置 。 修 改 副 本 集成 员 配 置 时 ， 有 儿 个 
限制 需要 注意 : 


。 不 能 修改 成 员 的 " id" 字段， 

。 不 能 将 接收 rs . reconfig 命令 的 成 员 (通常 是 主 节点 ) 的 优先 级 设 为 0; 

。 不 能 将 仲裁 者 成 员 变 为 非 仲 裁 者 成 员 ， 反 之 亦 然 ; 

。 不 能 将 "buiLdIndexes" : false 的 成 员 修 改 为 "buildIndexes" : true。 

















需要 注意 的 是 ， 可 以 修改 成 员 的 "host" 字段 。 这 意味 着 ， 如 果 为 副本 集成 员 指定 
了 不 正确 的 主机 名 (比如 使 用 了 公 网 IP 而 不 是 内 网 卫 )， 之 后 可 以 重新 修改 成 员 的 
主机 名 。 


下 面 是 一 个 修改 主机 名 的 例子 : 











> var config = rs.config() 

> config.members[0].host = "spock:27017" 
spock:27017 

> rs.reconfig(config) 


修改 其 他 选项 的 方式 也 是 一 样 的 : 使 用 rs ,config 得 到 当前 配置 文件 ， 修 改 配置 
文件 ， 将 修改 后 的 配置 文件 传递 给 rs .reconfig 就 可 以 了 。 


12.2.3 创建 比较 大 的 副本 集 
副本 集 最 多 只 能 拥有 12 个 成 员 ， 其 中 只 有 7 个 成 员 拥有 投票 权 。 这 是 为 了 减少 心跳 
请 求 的 网 络 流量 (每 个 成 员 都 要 向 其 他 所 有 成 员 发 送 心跳 请 求 ) 和 选举 花费 的 时 间 。 





管理 | 213 


实际 上 ， 副 本 集 还 有 更 多 的 限制 ， 如 果 需 要 11 个 以 上 的 备份 节点 ， 可 以 查看 12.5 市 。 


如 果 要 创建 7 个 以 上 成 员 的 副本 集 ， 只 有 7 个 成 员 可 以 拥有 投票 权 ， 需 要 将 其 他 成 
员 的 投票 数量 设置 为 0: 


> rs.add({" id" : 7, "host" : "server-7:27017", "votes" : 0}) 





J 


这 样 可 以 阻止 这 些 成 员 在 选举 中 投 主动 票 ， 虽 然 它 们 仍然 可 以 投 否 决 票 。 


应 该 尽量 避免 修改 成 员 的 投票 数量 。 投 票 可 能 会 对 选举 和 一 致 性 产生 怪异 的 、 不 直 
观 的 影响 。 应 该 只 在 创建 包含 7 个 以 上 成 员 的 副本 集 或 者 是 希望 阻止 自动 故障 转移 
( 详 见 12.5.2 节 ) 时 ,使 用 "votes" 很 多 开发 者 会 误 以 为 让 成 员 拥 有 更 多 投 
票 权 会 使 这 个 成 员 更 容易 被 选 为 主 节点 (实际 上 根本 不 会 )。 如 果 和 希望 某 个 成 员 可 以 
优先 被 选举 为 主 节点 ， 应 该 使 用 优先 级 ( 详 见 9.62 节 )。 








12.2.4 强制 重新 配置 

如 果 副 本 集 无 法 再 达到 “大 多 数 ” 要 求 的 话 ， 那 么 它 就 无 法 选举 出 新 的 主 节点 ， 这 
时 你 可 能 会 希望 重新 配置 副本 集 。 这 看 起 来 有 点 奇怪 ， 因 为 通常 都 是 将 配置 文件 发 
送 给 主 节 点 。 在 这 种 情况 下 ， 可 以 在 备份 节点 上 调用 rs. reconfig 强制 重新 配置 
(force reconfigure) 副本 集 。 在 shell 中 连接 到 一 个 备份 节点 ， 使 用 "force'" 选项 执 
行 rs.reconfig 命令 : 





瑟 























> rs.reconfig(config, {"force" : true}) 


强制 重新 配置 与 普通 的 重新 配置 要 遵守 同样 的 规则 : 必须 使 用 正确 的 reconfig 选 
ee 验 成 员 。 "force" 选项 不 允许 无 效 的 配置 ， 
只 允许 将 配置 发 送 给 备份 节 


强制 重新 配置 会 跳 过 大 量 的 数值 直接 将 副本 集 的 "version" 设 为 一 个 比较 大 的 值 。 
可 能 会 见 到 跳 过 数 千 的 情况 ， 这 很 正常 : 这 是 为 了 防止 "version'" 字段 冲突 (以 防 
不 同 的 网 络 域 中 都 在 进行 重新 配置 ) 。 


备份 节点 收 到 新 的 配置 文件 之 后 ， 就 会 修改 自身 的 配置 ， 并 且 将 新 的 配置 发 送 给 副 
本 集中 的 其 他 成 员 。 副 本 集 的 其 他 成 员 收 到 新 的 配置 文件 之 后 ， 会 判断 配置 文件 的 
发 送 者 是 否 是 它们 当前 配置 中 的 一 个 成 员 ， 如 果 是 ， 才 会 用 新 的 配置 文件 对 自己 进 
和 所 以 ， 如 果 新 的 配置 会 修改 某 些 成 员 的 主机 名 ， 应 该 将 新 的 配置 发 送 

给 主机 名 不 发 生变 化 的 成 员 。 如 果 新 的 配置 文件 修改 了 所 有 成 员 的 主机 名 ， 应 该 关 
闭 副 本 集 的 每 一 个 成 员 ， 以 单机 模式 启动 ， 手 动 修 改 local.system.replset 文档 ， 然 
后 重新 启动 。 
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12.3 ”修改 成 员 状 态 


为 进行 维护 或 响应 加 载 ， 有 多 种 方式 可 以 手动 修改 成 员 的 状态 。 广 意 ， 无 法 强制 将 
某 个 成 员 变 成 主 节 点 ， 除 非 对 副本 集 做 适当 的 配置 。 


12.3.1 把 主 节 点 变 为 备份 节点 
可 以 使 用 stepDown 国 数 将 主 节 点 降级 为 备份 节点 : 

> rs.stepDown() 
这 个 命令 可 以 让 主 布 点 退化 为 备份 布点 ， 并 维持 60 秒 。 如 果 这 段 时 间 内 没有 新 的 主 
市 点 被 选举 出 来 ， 这 个 节点 就 可 以 要 求 重 新 进行 选举 。 如 果 希 望 主 节 点 退化 为 备份 
节点 并 持续 更 长 (或 者 更 短 ) 的 时 间 ， 可 以 自己 指定 时 间 (以 秒 为 单位 ) : 








> rs.stepDown(600) // 10 分 钟 


12.3.2 ”阻止 选举 
如 果 需 要 对 主 市 点 做 一 些 维护 ， 但 是 不 希望 这 段 时 间 内 将 其 他 成 员 选 举 为 主 节 点 ， 
那么 可 以 在 每 个 备份 节点 上 执行 freeze 命令 ， 以 强制 它们 始终 处 于 备份 节点 状态 : 





> rs.freeze(10000) 
这 个 命令 也 会 接受 一 个 以 秒表 示 的 时 间 ， 表 示 在 多 长 时 间 内 保持 备份 节点 状态 。 


维护 完成 之 后 ， 如 果 想 “释放 ”其 他 成 员 ， 可 以 再 次 执行 freeze 命令 ， 将 时 间 指 
定 为 0 即 可 : 








> rs.freeze(0) 
这 样 ， 其 他 成 员 就 可 以 在 必要 时 申请 被 选举 为 主 节 点 。 


也 可 以 在 主 节 点 上 执行 rs.freeze(0) ， 这 样 可 以 将 退位 的 主 节点 重新 变 为 主 节 点 。 


12.3.3 ”使 用 维护 模式 

当 在 副本 集成 员 上 执行 某 个 非常 耗 时 的 操作 时 ， 这 个 成 员 就 人 进入 维护 模式 
(maintenance mode) : 强制 成 员 进 入 RECOVERING 状态 。 有 了 时， 成员 会 自动 进入 维 
护 模 式 ， 比 如 在 成 员 上 做 压缩 时 。 压 缩 开 始 之 后 ， 成 员 会 进入 RECOVERING 状态 ， 
这 样 就 不 会 有 读 请 求 发 送 给 这 个 成 员 。 客 户 端 会 停止 从 这 个 成 员 读 取 数 据 (如 果 之 
前 有 从 这 个 成 员 读数 据 的 话 ) ， 这 个 成 员 也 不 能 再 作为 复制 源 。 
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也 可 以 通过 执行 repLSetMaintenanceMode 命令 强制 一 个 成 员 进 入 维护 模式 。 如 
果 一 个 成 员 远 远 落 后 于 主 节 点 ， 你 不 希望 它 继 续 处 理 读 请 求 时 ， 可 以 强制 让 这 个 成 
员 进 入 维护 模式 。 例 如 ， 下 面 这 个 脚本 会 自动 检测 成 员 是 否 落后 于 主 节 点 30 秒 以 
上 ， 如 果 是 ， 就 强制 将 这 个 成 员 转 入 维护 模式 : 




















function maybeMaintenanceMode() { 
var local = db.getSisterDB("local"); 


// 如 果 成 员 不 是 备份 节点 〈 它 可 能 是 主 节点 

// 或 者 已 经 处 于 维护 状态 ) ， 就 直接 返回 

if (!local.isMaster().secondary) { 
return; 











} 


// 查找 这 个 成 员 最 后 一 次 操作 的 时 间 
var Last = local.oplog.rs.find().sort({"$natural" : -1}).next(); 
var LastTime = last['ts']['t']; 


// 如 果 落 后 主 节点 30 秒 以 上 
if (lastTime < (new Date()).getTime()-30) { 
db.adminCommand({"replSetMaintenanceMode" : true}); 





} 
}; 


将 成 员 从 维护 模式 中 恢复 ， 可 以 使 用 如 下 命令 : 


> db.adminCommand({"replSetMaintenanceMode" : false}); 


12.4 ”监控 复制 


监控 副本 集 的 状态 非常 重要 : 不 仅 要 监控 是 否 所 有 成 员 都 可 用 ， 也 要 监控 每 个 成 员 
处 于 什么 状态 ， 以 及 每 个 成 员 的 数据 新 旧 程度 。 有 多 个 命令 可 以 用 来 查看 副本 集 相 
关 信息 。MMS 〈 详 见 第 21 章 ) 也 维护 着 一 些 与 复制 相关 的 信息 。 

与 复制 相关 的 故障 通常 都 是 很 短暂 的 : 一 个 服务 器 刚才 还 连接 不 到 另 一 个 服务 器 ， 
但 是 现在 又 可 以 连 上 了 。 要 查看 这 样 的 问题 ， 最 简单 的 方式 就 是 查看 日 志 。 确 保 自 
己 知道 日 志 的 保存 位 置 (而 且 真 的 被 保存 下 来 )， 确 保 能 够 访问 到 它们 。 


12.4.1 获取 状态 

replSetGetStatus 是 一 个 非常 有 用 的 命令 ， 可 以 返回 副本 集中 每 个 成 员 的 当前 信 
息 (这 里 的 “当前 ”是 从 每 个 成 员 自 身 的 角度 来 说 的 )。 这 个 命令 还 有 一 个 对 应 的 辅 
助 函 数 rs. status: 





> rs.status() 


{ 
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"set" : "spock", 

"date" : ISODate("2012-10-17T18:17:522")，, 

"myState" : 2, 

"syncingTo" : "server-1:27017", 

"members" : [ 

{ 

id" .05 
"name" : "server-1:27017", 
"health" : 1, 
"state" : 1, 
"stateStr" : "PRIMARY", 
"uptime" : 74824, 
"optime" : { "t" : 1350496621000, "i" :; 1}, 
"optimeDate" : ISODate("2012-10-17T17:57:012")，, 
"lastHeartbeat" : ISODate("2012-10-17T17:57:002")，, 


"pingMs" : 3, 

}, 

{ 
"id" 
"name" : "server-2:27017", 
"health" : 1, 
"state" : 2, 
"stateStr" : "SECONDARY", 
"uptime" : 161989, 
"optime" : { "t" : 1350377549000, "i" :; 500 }, 
"optimeDate" : ISODate("2012-10-17T17:57:002"), 
"self" : true 

}, 

{ 
< 2 
"name" : "server-3:27017", 
"health" : 1, 
人 
"stateStr" : "RECOVERING", 
"uptime" : 24300, 
"optime" : { "t" : 1350411407000, "i" :; 739 }, 
"optimeDate" : ISODate("2012-10-16T18:16:472")，, 
"lastHeartbeat" : ISODate("2012-10-17T17:57:012")，, 
"pingMs" :; 12, 
"errmsg" : "still syncing, not yet to minValid optime 507e9a30:851" 

} 

J; 
OK 1 


= 


下 面 分 别 介 绍 儿 个 最 有 用 的 字段 。 





这 个 字段 只 会 出 现在 执行 rs .status() 函数 的 成 员 信息 中 ， 在 本 例 中 是 server-2。 


stateStr 
用 于 描述 服务 器 状态 的 字符 串 。 关 于 成 员 不 同 状态 的 描述 ， 可 以 查看 10.2.1 节 。 
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。 Uptime 
从 成 员 可 达 一 直到 现在 所 经 历 的 时 间 ， 单 位 是 秒 。 对 于 "self" 成 员 ， 这 个 值 是 
从 成 员 启动 一 直到 现在 的 时 间 。 因 此 ，server-2 已 经 启动 161 989 秒 了 (大 约 45 
小 时 )。server-1 在 过 去 的 21 小 时 中 一 直 处 于 可 用 状态 ，server-3 在 过 去 7 小 时 中 
一 直 处 于 可 用 状态 。 











。 optimeDate 
每 个 成 员 的 opLog 中 最 后 一 个 操作 发 生 的 时 间 〈 也 就 是 操作 被 同步 过 来 的 时 间 )。 
注意 ， 这 里 的 状态 是 每 个 成 员 通 过 心跳 报告 上 来 的 状态 ， 所 以 optime 跟 实 际 时 
间 可 能 会 有 儿 秒 钟 的 偏差 。 

。 lastHeartbeat 


当前 服务 器 最 后 一 次 收 到 其 他 成 员 心 跳 的 时 间 。 如 果 网 络 故 障 或 者 当前 服务 器 比 
较 繁 忙 ， 这 个 时 间 可 能 会 是 2 秒 钟 之 前 。 





。 pingMs 
心跳 从 当前 服务 器 到 达 某 个 成 员 所 花费 的 平均 时 间 ， 可 以 根据 这 个 字段 选择 从 哪 
个 成 员 进行 同步 。 

。 errmsg 
成 员 在 心跳 请 求 中 返回 的 状态 信息 。 这 个 字段 的 内 容 通 常 只 是 一 些 状态 信息 ， 而 
不 是 错误 信息 。 例 如 ，server-3 的 "errmsg" 字段 表示 它 正 处 于 初始 化 同步 过 程 
中 。 这 里 的 十 六 进 制 数字 507e9a30:851 是 某 个 操作 对 应 的 时 间 惟 ，server-3 至 少 
要 同步 完 这 个 操作 才能 完成 同步 过 程 。 


有 几 个 字段 的 信息 是 重复 的 : "state" 与 "stateStr" 都 表示 成 员 的 状态 ， 只 是 
"state" 的 值 是 状态 的 内 部 表示 法 。"health" 仅仅 表示 给 定 的 服务 器 是 否 可 达 
(可 达 是 1， 不 可 达 是 0) ， 而 从 "state" 和 "stateStr" 字段 也 可 以 得 到 这 样 的 信 
息 (如 果 服 务 器 不 可 达 ， 它 们 的 值 会 是 UNKNOWN 或 者 DOWN)。 类 似 地 ，"optime" 
和 "optimeDate" 的 值 也 是 相同 的 ， 只 是 表示 方式 不 同 : 一 个 是 用 从 新 纪元 开始 的 
毫秒 数 表示 的 ， 另 一 个 用 一 种 更 适合 阅读 的 方式 表示 。 


注意 ， 这 份 报告 是 以 执行 rs .status() 命令 的 成 员 的 角度 得 出 的 : 由 于 网 络 故障 ， 
这 份 报告 可 能 不 准确 或 者 有 些 过 时 。 




















12.4.2 ”复制 图 谱 
如 果 在 备份 节点 上 运行 rs.status()， 输 出 信息 中 会 有 一 个 名 为 "syncingTo" 的 
顶级 字段 ， 用 于 表示 当前 成 员 正 在 从 哪个 成 员 处 进行 复制 。 如 果 在 每 个 成 员 上 运 
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行 repLSetGetStatus 命令 ， 就 可 以 弄 清 楚 复 制图 谱 (replication graph)。 假 设 
serverl 表示 连接 到 serverl 的 数据 库 连 接 ，server2 表示 连接 到 server2 的 数据 库 
连接 ， 以 此 类 推 ， 然 后 分 别 在 这 些 连接 上 执行 下 面 的 命令 : 

> serverl.adminCommand({replSetGetStatus: 1})['syncingTo'] 

server0:27017 

> server2.adminCommand({replSetGetStatus: 1})['syncingTo'] 

server1:27017 

> server3.adminCommand({replSetGetStatus: 1})['syncingTo'] 

server1l:27017 


> server4.adminCommand({replSetGetStatus: 1})['syncingTo'] 
server2:27017 


所 以 ，server0 是 serverl 的 同步 源 ，serverl 是 server2 和 server3 的 同步 源 ，server2 
是 server4 的 同步 源 。 


MongoDB 根据 ping 时 间 选 择 同步 源 。 一 个 成 员 向 另 一 个 成 员 发 送 心跳 请 求 ， 就 可 
以 知道 心跳 请 求 所 耗费 的 时 间 。MongoDB 维护 着 不 同 成 员 间 请 求 的 平均 花费 时 间 。 
选择 同步 源 时 ， 会 选择 一 个 离 自 己 比 较 近 而 且 数 据 比 自己 新 的 成 员 (所 以 ， 不 会 出 
现 循环 复制 的 问题 ， 每 个 成 员 要 么 从 主 节点 复制 ， 要 么 从 数据 比 它 新 的 成 员 处 复 
制 )。 

因此 ， 如 果 在 备份 数据 中 心中 添加 一 个 新 成 员 ， 它 很 可 能 会 从 与 自己 同 在 一 个 数据 
中 心 内 的 其 他 成 员 处 复制 ， 而 不 是 从 位 于 另 一 个 数据 中 心 的 主 节点 处 复制 〈 这 样 可 
以 减少 网 络 流量 )， 如 图 12-1 所 示 。 



































12-1; 新 的 备份 节点 通常 会 从 与 自己 处 于 同一 个 数据 中 心 的 其 他 成 员 进 行 复制 


但 是 ， 自 动 复制 链 (automatic replication chaining) 也 有 一 些 缺 点 : 复制 链 越 长 ， 
将 写 操作 复制 到 所 有 服务 器 所 花费 的 时 间 就 越 长 。 假 设 所 有 服务 器 都 位 于 同一 个 数 
据 中 心 内 ， 然 后 ， 由 于 网 络 速度 异常 ， 新 添加 一 个 成 员 之 后 ，MongoDB 的 复制 链 
如 图 12-2 所 示 。 
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12-2: 复制 链 越 长 ， 将 数据 同步 到 全 部 服务 器 花费 的 时 间 就 越 长 

通常 不 太 可 能 发 生 这 样 的 情况 ， 但 是 并 非 不 可 能 。 但 这 种 情况 通常 是 不 可 取 的 : 复 

制 链 中 的 每 个 备份 节点 都 要 比 它 前 面 的 备份 节点 稍微 落后 一 点 。 只 要 出 现 这 种 状况 ， 

可 以 用 repLSetSyncFrom (或 者 是 它 对 应 的 辅助 函数 rs .syncFrom( ) ) 命令 修改 

成 员 的 复制 源 进行 修复 。 

连接 到 需要 修改 复制 源 的 备份 节点 ， 运 行 这 个 命令 ， 为 其 指定 一 个 复 钥 
> secondary.adminCommand({"replSetSyncFrom" : "server0:27017"}) 

可 能 要 花费 几 秒 钟 的 时 间 才 能 切换 到 新 的 复制 源 。 如 果 在 这 个 成 员 上 再 次 执行 

rs.status()， 会 发 现 "syncingTo" 字段 的 值 已 经 变 成 了 "server0:27017"。 


现在 ，server4 会 一 直 从 server0 进行 复制 ， 直 到 server0 不 可 用 或 者 远 远 落后 于 其 他 
成 员 为 止 。 





4 
ee 


源 : 








12.4.3 复制 循环 

如 果 复 制 链 中 出 现 了 环 ， 那 么 就 称 为 发 生 了 复制 循环 。 例 如 ，A 从 B 处 同步 数据 ， 
B 从 C 处 同步 数据 ，C 从 A 处 同步 数据 ， 这 就 是 一 个 复制 循环 。 因 为 复制 循环 中 的 
成 员 都 不 可 能 成 为 主 节 点 ， 所 以 这 些 成 员 无 法 复制 新 的 写 操 作 ， 就 会 越 来 越 落 后 。 
另 一 方面 ， 如 果 每 个 成 员 都 是 自动 选取 复制 源 ， 那 么 复制 循环 是 不 可 能 发 生 的 。 


但 是 ， 使 用 replSetSyncFrom 强制 为 成 员 设置 复制 源 时 ， 就 可 能 会 出 现 复制 循环 。 
在 手动 修改 成 员 的 复制 源 时 ， 应 该 仔细 查看 rs .status() 的 输出 信息 ， 避 免 造成 
复制 循环 。 当 用 repLSetSyncFronm 为 成 员 指定 一 个 并 不 比 它 领先 的 成 员 作为 复制 
源 时 ， 系 统 会 给 出 警告 ， 但 是 仍然 允许 这 么 做 。 






























































12.4.4 禁用 复制 链 
当 一 个 备份 节点 从 另 一 个 备份 节点 (而 不 是 主 节点 ) 复制 数据 时 ， 就 会 形成 复制 链 。 
前 面 说 过 ， 成 员 会 自动 选择 其 他 成 员 作为 复制 源 。 
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可 以 禁用 复制 链 ， 强 制 要 求 每 个 成 员 都 从 主 节点 进行 复制 ， 只 需要 将 "aLLowChaining" 
设置 为 fatse 即 可 (如果 不 指定 这 个 选项 ， 默 认 是 true) : 





> var config = rs.config() 

> // 如 果 设 置 子 对 象 不 存在 ， 就 自动 创建 一 个 空 能 

> config.settings = Config,settings || {} 
> config.settings.allowChaining = false 

> rs.reconfig(config) 


将 aLLowChaining 设置 为 false 之 后 ， 所 有 成 员 都 会 从 主 节 点 复制 数据 。 如 果 主 
节点 变 得 不 可 用 ， 那 么 各 个 成 员 就 会 从 其 他 备份 节点 处 复制 数据 。 


12.4.5 ”计算 延迟 

跟踪 复制 情况 的 一 个 重要 指标 是 备份 节点 与 主 节 点 之 间 的 延迟 程度 。 延 迟 (lag) 是 
指 备 份 节点 相对 于 主 节 点 的 落后 程度 ， 是 主 节 点 最 后 一 次 操作 的 时 间 惟 与 备份 节点 
最 后 一 次 操作 的 时 间 惟 的 差 。 


可 以 使 用 rs.status() 查看 成 员 的 复制 状态 ， 也 可 以 通过 在 主 节 点 上 执行 
db.printRepLicationInfo() (这 个 命令 的 输出 信息 中 包括 oplog 相关 信息 ) ， 或 
者 在 备份 节点 上 执行 db.printStLaveRepLicationInfo() 快速 得 到 一 份 摘 要 信 
息 。 注 意 ， 这 两 个 都 是 db 的 函数 ， 而 不 是 rs 的 。 


db.printRepLicationInfo 的 输出 中 包括 主 节点 的 oplog 信息 : 


> db.printReplicationInfo(); 
conNgured oplog size: 10.48576MB 
log length start to end: 34secs (0.01hrs) 
oplog Nrst event time: Tue Mar 30 2010 16:42:57 GMT-0400 (EDT) 
oplog last event time: Tue Mar 30 2010 16:43:31 GMT-0400 (EDT) 
now: Tue Mar 30 2010 16:43:37 GMT-0400 (EDT) 











上 面 的 输出 信息 中 包含 了 oplog 的 大 小 ， 以 及 oplog 中 包含 的 操作 的 时 间 范 围 。 在 
本 例 中 ，oplog 的 大 小 大 约 是 10 MB， 而 且 只 包含 大 约 最 近 30 秒 的 操作 。 

在 实际 的 部 署 中 ，oplog 会 大 得 多 (12.4.6 节 会 讲述 如 何 修改 oplog 的 大 小 )。 我 们 
希望 oplog 的 长 度 至 少 要 能 够 容纳 一 次 完整 同步 的 所 有 操作 。 这 样 ， 备 份 节 点 就 不 
会 在 完成 初始 化 同步 之 前 与 oplog 脱 市 。 





J 





ee oplog 中 第 一 条 操作 与 最 后 一 条 操作 的 时 间 差 就 是 操作 日 志 的 长 度 。 如 果 服 
心 。 务 器 才刚 刚 启动 ， 刚 启动 时 的 oplog 是 空 的 ， 那 么 oplog 中 的 第 一 条 操作 
入 会 距离 现在 非常 近 。 在 这 种 情况 下 ， 日 志 长 度 会 比较 小 ， 即 使 oplog 仍然 
有 可 用 空间 。 对 于 那些 已 经 运行 了 比较 长 的 时 间 ，oplog 已 经 至 少 被 填 满 

一 次 的 服务 器 来 说 ， 日 志 长 度 是 一 个 非常 有 用 的 度量 指标 。 
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在 备份 节点 上 运行 db.printSlaveReplicationInfo()， 可 以 得 到 当前 成 员 的 复 
制 源 ， 以 及 当前 成 员 相 对 复制 源 的 落后 程度 等 信息 : 








> db.printSlaveReplicationInfo(); 
source: server-0:27017 
syncedTo: Tue Mar 30 2012 16:44:01 GMT-0400 (EDT) 
= l2secs ago (Ohrs) 


这 样 就 可 以 知道 当前 成 员 正 在 从 哪个 成 员 处 复制 数据 。 在 这 个 例子 中 ， 备 份 市 点 比 
主 市 点 落后 12 秒 。 


注意 ， 副 本 集成 员 的 延迟 是 相对 于 主 市 点 来 说 的 ， 而 不 是 表示 需要 多 长 时 间 才 能 
新 到 最 新 。 在 一 个 写 操作 非常 少 的 系统 中 ， 有 可 能 会 造成 延迟 过 大 的 幻觉 。 假 设 一 
小 时 执行 一 次 写 操作 。 刚 刚 执行 完 这 次 写 操 作 之 后 ， 复 制 之 前 ， 备 份 节 点 会 落后 于 
主 节 点 一 小 时 。 但 是 ， 只 需要 几 毫 秒 时 ， 备 份 节点 就 可 以 追 上 主 节 点 。 当 监控 低 知 
吐 量 的 系统 时 ， 这 个 值 可 能 会 造成 迷惑 。 





12.4.6 ”调整 oplog 大 小 

可 以 将 主 节 点 的 oplog 长 度 看 作 维 护 工作 的 时 间 窗 。 如 果 主 布点 的 oplog 长 度 是 一 
小 时 ， 那 么 你 就 具有 一 小 时 的 时 间 可 以 用 于 修复 各 种 错误 ， 不 然 的 话 备份 节点 可 
能 会 落后 于 主 节 点 太 多 ， 导 致 不 得 不 重新 进行 完全 同步 。 所 以 ， 你 通常 可 能 希望 
oplog 能 够 保存 几 天 或 者 一 个 星期 的 数据 ， 从 而 给 自己 预 留 足够 的 时 间 ， 用 于 处 理 
各 种 突 发 状况 。 

可 惜 ， 在 oplog 被 填 满 之 前 很 难 知道 它 的 长 度 ， 也 没有 办 法 在 服务 器 运行 期 间 调整 
oplog 大 小 。 但 是 ， 可 以 依次 将 每 台 服 务 器 下 线 ， 调 整 它 的 oplog， 然 后 重新 把 它 添 
加 到 副本 集中 。 记 住 ， 每 一 个 可 能 成 为 主 布 点 的 服务 器 都 应 该 拥有 足够 大 的 oplog， 
以 预 留 足够 的 时 间 窗 用 于 进行 维护 。 


如 果 要 增加 oplog 大 小 ， 可 以 按照 如 下 步骤 。 


(1) 如 果 当 前 服务 器 是 主 节 点 ， 让 它 退 位 ， 以 便 让 其 他 成 员 的 数据 能 够 尽快 更 新 到 与 
它 一 致 。 


























(2) 关闭 当前 服务 器 。 
(3) 将 当前 服务 器 以 单机 模式 启动 。 
(4) 临时 将 oplog 中 的 最 后 一 条 insert 操作 保存 到 其 他 集合 中 : 


> USe local 
> // op:"i" 用 于 查找 最 后 一 条 insert 操作 
> var cursor = db.oplog.rs.find({"op"” : "i"}) 
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> Var LastInsert = cursor.sort({"$natural" : -1}).Limit(1) .next() 
> db.tempLastOp.save(lastInsert) 


> 
> // 确保 保存 成 功 ， 这 非常 重要 ! 
> db.tempLastop .findone() 





也 可 以 使 用 最 后 一 项 update 或 者 delete 操作 ， 但 是 $ 操作 符 不 能 插入 到 集合 中 。 
(5) 删除 当前 的 oplog: 
> db.optog.rs.drop() 
(6) 创建 一 个 新 的 oplog: 
> db.createCollection("oplog.rs", {"capped" : true, "size" : 10000}) 


(7) 将 最 后 一 条 操作 记录 写 回 oplog: 





> var temp = db.tempLasto0p.findone() 
> db.oplog.rs.insert(temp) 


> 
> // 要 确保 插入 成 功 
> db.oplog.rs.findOne() 





确保 最 后 一 条 操作 记录 成 功 插入 oplog。 如 果 没 有 插入 成 功 ， 把 当前 服务 器 添加 
到 副本 集 之 后 ， 它 会 删除 所 有 数据 ， 然 后 重新 进行 一 次 完整 同步 。 


(8) 最 后 ， 将 当前 服务 器 作为 副本 集成 员 重新 启动 。 注 意 ， 由 于 这 时 它 的 oplog 只 有 
一 条 记录 ， 所 以 在 一 段 时 间 内 无 法 知道 oplog 的 真实 长 度 。 另 外 ， 这 个 服务 器 现 
在 也 并 不 适合 作为 其 他 成 员 的 复制 源 。 


通常 不 应 该 减 小 oplog 的 大 小 : 即使 oplog 可 能 会 有 儿 个 月 那么 长 ， 但 是 通常 总 
是 有 足够 的 硬盘 空间 来 保存 oplog，oplog 并 不 会 占用 任何 珍 吐 的 资源 (比如 CPU 
或 RAM)。 








12.4.7 ”从 延迟 备份 节点 中 恢复 

假设 有 人 不 小 心 删除 了 一 个 数据 库 ， 幸 好 你 有 一 个 延迟 备份 节点 。 现 在 ， 需 要 放弃 
其 他 成 员 的 数据 ， 明 确 将 延迟 备份 节点 指定 为 数据 源 。 有 几 种 方法 可 以 使 用 。 

下 面 介绍 最 简单 的 方法 。 

(1) 关闭 所 有 其 他 成 员 。 


(2) 删除 其 他 成 员 数据 目录 中 的 所 有 数据 。 确 保 每 个 成 员 〈 除 了 延迟 备份 节点 ) 的 数 
据 目 录 都 是 空 的 。 
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(3) 重启 所 有 成 员 ， 然 后 它们 会 自动 从 延迟 备份 节点 中 复制 数据 。 

这 种 方式 非常 简单 ， 但 是 ， 在 其 他 成 员 完 成 初始 化 同步 之 前 ， 副 本 集中 将 只 有 一 个 
成 员 可 用 (延迟 备份 市 点 ) 而 且 这 个 成 员 很 可 能 会 过 载 。 

根据 数据 量 的 不 同 ， 第 二 种 方式 可 能 更 好 ， 也 可 能 更 差 。 

(1) 关闭 所 有 成 员 ， 包 括 延迟 备份 节点 。 

(2) 删除 其 他 成 员 〈 除 了 延迟 备份 节点 ) 的 数据 目录 。 

(3) 将 延迟 备份 节点 的 数据 文件 复制 到 其 他 服务 器 。 

(4) 重启 所 有 成 员 。 


注意 ， 这 样 会 导致 所 有 服务 器 都 与 延迟 备份 节点 拥有 同样 天 小 的 oplog， 这 可 能 不 
是 你 想 要 的 。 





12.4.8 创建 索引 

如 果 向 主 节 点 发 送 创建 索引 的 命令 ， 主 节点 会 正常 创建 素 引 ， 然 后 备份 节点 在 复制 

“创建 索引 ”操作 时 也 会 创建 索引 。 这 是 最 简单 的 创建 索引 的 方式 ， 但 是 创建 索引 是 

一 个 需要 消耗 大 量 资源 的 操作 ， 可 能 会 导致 成 员 不 可 用 。 如 果 所 有 备份 节点 都 在 同 

一 时 间 开 始 创建 索引 ， 那 么 几乎 所 有 成 员 都 会 不 可 用 ， 一 直到 索引 创建 完成 。 

因此 ， 可 能 你 会 希望 每 次 只 在 一 个 成 员 上 创建 索引 ， 以 降低 对 应 用 程序 的 影响 。 如 

果 要 这 么 做 ， 有 下 面 几 个 步骤 。 

(D 关闭 一 个 备份 节点 服务 器 。 

(2) 将 这 个 服务 器 以 单机 模式 启动 。 

(3) 在 单机 模式 下 创建 索引 。 

(4) 索引 创建 完成 之 后 ， 将 服务 器 作为 副本 集成 员 重 新 启动 。 

(5) 对 副本 集中 的 每 个 备份 节点 重复 第 (1) 步 ~ 第 (4) 步 。 

现在 副本 集 的 每 个 成 员 (除了 主 节点 ) 都 已 经 成 功 创建 了 索引 。 现 在 你 有 两 个 选择 ， 

应 该 根据 自己 的 实际 情况 选择 一 个 对 生产 系统 影响 最 小 的 方式 。 

(1) 在 主 节点 上 创建 索引。 如 果 系 统 会 有 一 段 负载 比较 小 的 “空闲 期 ”， 那 会 是 非常 
好 的 创建 索引 的 时 机 。 也 可 以 修改 读 取 首选 项 ， 在 主 节 点 创建 索引 期 间 ， 将 读 
操作 发 送 到 备份 节点 上 。 


主 节 点 创建 索引 之 后 ， 备 份 节点 仍然 会 复制 这 个 操作 ， 但 是 由 于 备份 节点 中 已 




















d= 
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经 有 了 同样 的 索引 ， 实 际 上 不 会 再 次 创建 索引 。 


(2) 让 主 节 点 退化 为 备份 节点 ， 对 这 个 服务 器 执行 上 面 的 4 步 。 这 时 就 会 发 生 故 障 
转移 ， 在 主 节 点 退化 为 备份 节点 创建 索引 期 间 ， 会 有 新 的 节点 被 选举 为 主 节 点 ， 
保证 系统 正常 运转 。 索 引 创建 完成 之 后 ， 可 以 重新 将 服务 器 添加 到 副本 集 。 


注意 ， 可 以 使 用 这 种 技术 为 其 个 备份 节点 创建 与 其 他 成 员 不 同 的 索引 。 这 种 方式 在 
做 离线 数据 处 理 时 会 非常 有 用 ， 但 是 ， 如 果 某 个 备份 节点 的 索引 与 其 他 成 员 不 同 ， 
那么 它 永 远 不 能 成 为 主 节 点 : 应 该 将 它 的 优先 级 设 为 0。 


如 果 要 创建 唯一 索引 ， 需 要 先 确保 主 节 点 中 没有 被 插入 重复 的 数据 ， 或 者 应 该 首先 
为 主 节 点 创建 唯一 索引 。 否 则 ， 可 能 会 有 重复 数据 插入 主 节 点 ， 这 会 导致 备份 节点 
复制 时 出 错 ， 如 果 遇 到 这 样 的 错误 ， 备 份 节点 会 将 自己 关闭 。 你 不 得 不 以 单机 模式 
启动 这 台 服 务 器 ， 删 除 唯一 索引 ， 然 后 重新 将 其 加 入 副本 集 。 





























12.4.9 在 预算 有 限 的 情况 下 进行 复制 

如 果 预 算 有 限 ， 不 能 使 用 多 台 高 性 能 服务 器 ， 可 以 考虑 将 备份 节点 只 用 于 灾难 恢复 ， 
这 样 的 备份 节点 不 需要 太 大 的 RAM 和 太 好 的 CPU， 也 不 需要 太 高 的 磁盘 IO。 这 
样 ， 始 终 将 高 性 能 服务 器 作为 主 节点 ， 比 较 便 宜 的 服务 器 只 用 于 备份 ， 不 处 理 任 何 
客户 端 请 求 (将 客户 端 配置 为 将 全 部 读 请 求 发 送 到 主 节点 )。 对 于 这 样 的 备份 节点 
应 该 设置 这 些 选 项 。 


。 "priority" : 0 
优先 级 为 0 的 备份 节点 永远 不 会 成 为 主 市 点 


"hidden" : true 


将 备份 节点 设 为 隐藏 ， 客 户 端 就 无 法 将 读 请 求 发 送 给 它 了 。 


"buildIindexes" : false 

这 个 选项 是 可 选 的 ， 如 果 在 备份 节点 上 创建 索引 的 话 ， 会 极 大 地 降低 备份 节点 的 
性 能 。 如 果 不 在 备份 节点 上 创建 索引 ， 那 么 从 备份 节点 中 恢复 数据 之 后 ， 需 要 重 
新 创建 索引 。 

















。 "votes" : 0 

在 只 有 两 台 服 务 器 的 情况 下 ， 如 果 将 备份 节点 的 投票 数 设 为 0， 那 么 当 备 份 节点 
挂 掉 之 后 ， 主 节点 仍然 会 一 直 是 主 节 点 ， 不 会 因为 达 不 到 “大 多 数 ” 的 要 求 而 退 
位 。 如 果 还 有 第 三 台 服 务 器 (即使 它 是 你 的 应 用 服务 器 )， 那 么 应 该 在 第 三 台 服 
务 器 上 运行 一 个 仲裁 者 成 员 ， 而 不 是 将 第 三 台 服 务 器 的 投票 数量 设 为 0。 
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在 没有 足够 的 预算 购买 多 台 高 性 能 服务 器 的 情况 下 ， 可 以 用 这 样 的 备份 节点 来 保证 
系统 和 数据 安全 。 








12.4.10 ” 主 节 点 如 何 跟踪 延迟 

作为 其 他 成 员 的 同步 源 的 成 员 会 维护 一 个 名 为 local.slaves 的 集合 ， 这 个 集合 中 保存 
着 所 有 正 从 当前 成 员 进 行 数据 同步 的 成 员 ， 以 及 每 个 成 员 的 数据 新 旧 程 度 。 如 果 使 
用 w 参数 执行 查询 ，MongoDB 会 根据 这 些 信息 确定 是 否 有 足够 多 、 足 够 新 的 备份 
节点 可 以 用 来 处 理 查询 。 


local.slaves 集合 实际 上 是 内 存 中 数据 结构 的 “回声 " ， 所 以 其 中 的 数据 可 能 会 有 几 
秒 钟 的 延迟 : 


> db.sLaves.find() 














{ "_id" : ObjectId("4c1287178e0Q0e93d1858567c"), "host" : "10.4.1.100", 
"ns" : "local.oplog.rs", "syncedTo" : { "t" : 1276282710000, "i" : 1}} 

{ "id" : ObjectId("4c128730e6e5c3096f40e0Qde"), "host" :; "10.4.1.101", 
"ns" : "local.oplog.rs", "syncedTo" : { "t" : 1276282710000, "i" : 1}} 


每 个 服务 器 的 "id" 字段 非常 重要 : 它 是 所 有 正在 从 当前 成 员 进行 数据 同步 的 服 
务 器 的 标识 符 。 连 接 到 一 个 成 员 ， 然 后 查询 local.me 集合 就 可 以 知道 一 个 成 员 的 标 
识 符 : 


> db.me.findone() 
{ "_ id" : ObjectId("S50e6edb517c789e46695212f"), "host" : "server-1" } 


韭 常 偶然 的 情况 下 ， 由 于 网 络 故 障 ， 可 能 会 发 现 有 多 台 服 务 器 拥有 相同 的 标识 符 。 
在 这 种 情况 下 ， 只 能 知道 其 中 一 台 服 务 器 相对 于 主 市 点 的 新 旧 程 度 。 所 以 ， 这 可 能 
会 导致 应 用 程序 故障 (如 果 应 用 程序 需要 等 待 特定 数量 的 服务 器 完成 写 操作 ) 和 分 
片 问题 (数据 迁移 被 复制 到 “大 多 数 ” 备 份 布 点 之 前 ， 无 法 继续 做 数据 迁移 )。 如 果 
多 台 服 务 器 拥有 相同 的 "_id"， 可 以 依次 登录 到 每 台 服 务 器 ， 删 除 local.me 集合 ， 
然后 重新 启动 mongod。 启 动 时 ，mongod 会 使 用 新 的 " id" 重新 生成 local.me 
集合 。 


如 果 服 务 器 的 地 址 发 生 了 改变 (假定 " id" 没有 变 ， 但 是 主机 名 变 了 )， 可 能 会 在 
本 地 数据 库 的 日 志 中 看 到 键 重复 异常 (duplicate key exception) 。 遇 到 这 种 情况 时 ， 
删除 local.slaves 集合 即 可 (这 比 之 前 的 例子 简单 ， 因 为 只 需要 清除 旧 数 据 即 可 ， 不 
需要 处 理 数 据 冲 突 )。 


mongod 不 会 清理 local.slaves 集合 ， 所 以 ， 它 可 能 会 列 出 某 个 几 个 月 之 前 就 不 再 把 
该 成 员 作为 同步 源 的 服务 器 (或 者 是 已 经 不 在 副本 集 内 的 成 员 )。 由 于 MongoDB 只 
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是 把 这 个 集合 用 于 报告 复 本 集 状 态 ， 所 以 这 个 集合 中 的 过 时 数据 并 不 会 有 什么 影响 。 
如 果 你 觉得 这 个 集合 中 的 旧 数 据 会 造成 困惑 或 者 是 过 于 混乱 ， 可 以 将 整个 集合 删除 。 
儿 秒 钟 之 后 ， 如 果 有 新 的 服务 器 将 当前 成 员 作 为 复制 源 的 话 ， 这 个 集合 就 会 重新 
生成 。 

如 果 备 份 布 点 之 间 形 成 了 复制 链 ， 你 可 能 会 注意 到 某 个 特定 的 服务 器 在 主 节点 的 
local.slaves 集合 中 有 多 个 文档 。 这 是 因为 ， 每 个 备份 节点 都 会 将 复制 请 求 转发 给 
它 的 复制 源 ， 这 样 主 节 点 就 能 够 知道 每 个 备份 布点 的 同步 源 。 这 称 为 “ 影 同步 ” 
(ghost syncs)， 因 为 这 些 请 求 并 不 会 要 求 进行 数据 同步 ， 只 是 把 每 个 备份 节点 的 同 
步 源 报告 给 主 节 点 。 














local 数据 库 只 用 于 维护 复制 相关 信息 ， 它 并 不 会 被 复制 。 因 此 ， 如 果 希 里 
某 些 数据 只 存在 于 特定 的 机 器 上 ， 可 以 将 这 些 数据 保存 在 local 数据 库 的 集 
合 中 。 























12.5 主 从 模式 


MongoDB 最 初 支持 一 种 比较 传统 的 主 从 模式 (master-slave)， 在 这 种 模式 下 ， 
MongoDB 不 会 做 自动 故障 转移 ， 而 且 需 要 明确 声明 主 节 点 和 从 节点 。 有 两 种 情形 
应 该 使 用 主 从 模式 而 不 是 副本 集 : 需要 多 于 11 个 备份 节点 ， 或 者 是 需要 复制 单个 数 
据 库 。 除 非 迫 不 得 已 ， 否 则 都 应 该 使 用 副本 集 。 副 本 集 更 易 维护 ， 而 且 功 能 齐全 。 
主 从 模式 以 后 会 被 废弃 ， 当 副本 集 能 够 支持 无 限 数据 的 成 员 时 ， 主 从 模式 很 可 能 会 
被 立即 废弃 。 

但 是 ， 有 时 可 能 确实 需要 11 台 以 上 的 备份 节点 (从 节点 )， 或 者 是 需要 复制 单个 数 
据 库 。 这 些 情况 下 ， 应 该 使 用 主 从 模式 。 


如 果 要 将 服务 器 设 为 主 节 点 ， 可 以 使 用 - -master 选项 启动 服务 器 。 对 于 从 节点 ， 
有 两 个 可 用 的 选项 : --slave 和 - -source master。--source 用 于 指定 同步 源 的 
主机 名 和 端口 号 。 注 意 ， 不 要 使 用 - - repLSet 选项 ， 因 为 现在 是 要 设置 主 从 模式 ， 
而 不 是 副本 集 。 


假如 有 两 台 服 务 器 ，server-0 和 server-1， 可 以 这 么 做 : 








$# server-0 

$ mongod --master 

$ 

$# Server-1 

$ mongod --slave --source server-0:27017 
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这 样 ， 主 从 模式 就 设置 成 功 了 ， 不 需要 其 他 的 设置 。 在 主 节 点 执行 的 写 操作 ， 会 被 
复制 到 从 节点 上 。 








主 从 模式 也 可 以 用 于 复制 单个 数据 库 。 可 以 使 用 - -onLy 选项 选择 需要 进行 复制 的 
数据 库 。 





$ mongod --slave --source server-1:27017 --only super-important-db 


驱动 程序 不 会 自动 将 读 请 求 发 送 给 从 节点 。 如 果 要 从 从 节点 读 取 数 据 ， 需 要 显 式 地 
创建 一 个 连接 到 从 市 点 的 数据 库 连 接 。 


12.5.1 从 主 从 模式 切换 到 副本 集 模式 

从 主 从 模式 切换 到 副本 集 模 式 ， 需 要 停机 一 段 时 间 ， 步 又 如 下 。 

(1) 停止 系统 的 所 有 写 操作 。 这 非常 重要 ， 因 为 在 主 从 模式 下 ， 从 节点 并 不 会 维护 一 
份 oplog， 所 以 它 无 法 将 升级 期 间 落 下 的 操作 同步 过 来 。 

(2) 关闭 所 有 的 mongod 服务 器 。 

(3) 使 用 - - repLSet 选项 重启 主 节 点 ， 不 再 使 用 - -master。 

(4) 初始 化 这 个 只 有 一 个 成 员 的 副本 集 ， 这 个 成 员 会 成 为 副本 集中 的 主 节点 。 

(5) 使 用 -- repLSet 和 - -fastsync 选项 启动 从 市 点 。 通 常 ， 如 果 向 副本 集中 添加 一 
个 没有 oplog 的 成 员 ， 这 个 成 员 会 立即 进入 完全 的 初始 化 同步 过 程 。fastsync 选项 
用 于 告诉 新 成 员 不 会 担心 oplog 的 问题 ， 直 接 从 主 节 点 最 新 的 操作 开始 同步 即 可 。 

(6) 使 用 rs.add() 将 之 前 的 从 节点 加 入 副本 集 。 

(7) 对 每 个 从 节点 ， 重 复 第 (5) 步 和 第 (6) 步 。 

(8) 当 所 有 从 节点 都 变 为 备份 节点 之 后 ， 就 可 以 开启 系统 的 写 功能 了 。 

(9) 从 配置 文件 、 命 令 行 别名 和 内 存 中 删除 fastsync 选项 。 这 是 一 个 非常 危险 的 选 
项 ， 它 会 使 成 员 启 动 时 跳 过 一 些 需 要 同步 的 操作 。 只 有 在 从 主 从 模式 切换 到 副 
本 集 时 才 可 以 使 用 这 个 命令 。 现 在 已 经 切换 完成 了 ， 不 再 需要 这 个 选项 了 。 


现在 ， 主 从 模式 已 经 被 切换 为 副本 集 了 。 


12.5.2 ”让 副本 集 模仿 主 从 模式 的 行为 

通常 你 会 希望 主 节点 长 时 间 可 用 ， 因 此 ， 万 一 主 节点 不 可 用 ， 应 该 允许 自动 故障 转 
移 。 但 是 ， 对 于 某 些 副本 集 ， 你 可 能 会 要 求 手动 选择 新 的 主 节点 ， 不 允许 进行 自动 
故障 转移 。 这 样 的 话 ， 副 本 集 的 行为 就 跟 主 从 模式 一 样 了 (对 于 这 种 情况 ， 建 议 使 
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用 主 从 模式 ， 而 不 是 使 用 副本 集 )。 


为 了 实现 这 个 目的 ， 需 要 重新 配置 副本 集 ， 将 所 有 成 员 〈 除 主 节 点 之 外 ) 的 
priority 和 votes 设 为 0。 这 样 一 来 ， 如 果 主 节点 挂 了 ， 不 会 有 任何 成 员 寻 求 被 
选举 为 主 节 点 。 另 外 ， 如 果 所 有 备份 节点 都 挂 了 ， 主 节点 也 仍然 会 一 直 保 持 主 节点 
状态 ， 不 会 退位 〈 因 为 它 是 整个 系统 中 唯一 一 个 拥有 投票 权 的 成 员 ) 。 


下 面 的 配置 文件 会 创建 一 个 具有 5 个 成 员 的 副本 集 ， 其 中 server-0 会 始终 作为 主 市 
点 ， 其 他 4 个 成 员 会 始终 作为 备份 节点 : 

















{ 
"_id" : "spock", 
"members" : [ 
{"_id" : 0, "host" : "server-0:27017"}, 
{"_id" : 1, "host" : "server-1:27017", "priority" : 0, "votes" : 0}, 
{"_id" : 2, "host" : "server-2:27017", "priority" : 0, "votes" : 0}, 
{"_id" : 3, "host" : "server-3:27017", "priority" : 0, "votes" : 0}, 
{"_id" : 4, "host" : "server-4:27017", "priority" : 0, "votes" : 0} 
] 
} 





如 果 主 节点 挂 了 ， 管 理 员 必须 手动 选 出 新 的 主 节 点 。 


如 果 要 手动 将 某 个 备份 节点 提升 为 主 节点 ， 首 先 要 连接 到 这 个 备份 节点 ， 然 后 执 
行 强制 重新 配置 ， 将 它 的 priority 和 votes 修改 为 1， 同 时 将 先前 的 主 节点 的 
priority 和 votes 修改 为 0。 


例如 ， 如 果 server-0 挂 了 ， 可 以 连接 到 希望 提升 为 新 的 主 节 点 的 备份 节点 〈 比 如 
Server-1) ， 然 后 以 下 面 的 方式 修改 配置 ; 
































var config = rs.config() 
config.members[1] .priority = 1 
config.members[1].votes = 1 
config.members[0].priority = 0 
config.members[0].votes = 0 


5 
> 
> 
> rs.reconfig(config, {"force" : true}) 




















现在 ， 如 果 运 行 rs .config()， 就 可 以 看 到 新 的 副本 集 配 置信 息 了 : 





> rs.conNg() 
{ 
"_id" : "spock", 
"version" : 3 
"members" : [ 
{"_id" : 0, "host" : "server-0:27017", "priority" : 0, "votes" : 0}, 
{"_id" : 1, "host" : "server-1:27017"}, 
{"_id" : 2, "host" : "server-2:27017", "priority" : 0, "votes" : 0}, 
{"_id" : 3, "host" : "server-3:27017", "priority" : 0, "votes" : 0}, 
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{"_id" : 4, "host" : "server-4:27017", "priority" : 0, "votes" : 0} 











如 果 新 的 主 节 点 又 挂 了 ， 可 以 重复 上 面 的 步骤 ， 手 工 将 某 个 备份 节点 提升 为 新 的 主 
市 点 。 
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本 章 介 绍 如 果 扩 展 MongoDB: 


。 分 片 和 集群 组 件 ， 
。 如 何 配 置 分 片 ; 
。 分 片 与 应 用 程序 的 交互 。 


13.1 分 片 简介 


分 片 (sharding) 是 指 将 数据 拆 分 ， 将 其 分 散 存 放 在 不 同 的 机 器 上 的 过 程 。 有 时 也 
用 分 区 (partitioning) 来 表示 这 个 概念 。 将 数据 分 散 到 不 同 的 机 器 上 ， 不 需要 功能 
强大 的 大 型 计算 机 就 可 以 储存 更 多 的 数据 ， 处 理 更 大 的 负载 。 


几乎 所 有 数据 库 软 件 都 能 进行 手动 分 片 (manual sharding ) 。 应 用 需要 维护 与 若干 不 
同 数据 库 服务 器 的 连接 ， 每 个 连接 还 是 完全 独立 的 。 应 用 程序 管理 不 同 服务 右上 不 
同 数据 的 存储 ， 还 管理 在 合适 的 数据 库 上 查询 数据 的 工作 。 这 种 方法 可 以 很 好 地 工 
作 ， 但 是 非常 难以 维护 ， 比 如 向 集群 添加 节点 或 从 集群 删除 节点 都 很 困难 ， 调 整数 
据 分 布 和 负载 模式 也 不 轻松 。 


MongoDB 支持 自动 分 片 (autosharding)， 可 以 使 数据 库 架构 对 应 用 程序 不 可 见 ， 也 可 
以 简化 系统 管理 。 对 应 用 程序 而 言 ， 好 像 始 终 在 使 用 一 个 单机 的 MongoDB 服务 器 一 
样 。 另 一 方面 ， MongoDB 自动 处 理 数据 在 分 片上 的 分 布 ， 也 更 容易 添加 和 删除 分 片 。 


不 管 从 开发 角度 还 是 运营 角度 来 说 ,分 片 都 是 最 困难 最 复杂 的 MongoDB 配置 方式 。 
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有 很 多 组 件 可 以 用 于 自动 配置 、 监 控 和 数据 转移 。 在 尝试 部 署 或 使 用 分 片 集群 之 前 ， 
你 需要 先 熟悉 前 面 章节 中 讲 过 的 单机 服务 器 和 副本 集 。 


13.2 理解 集群 的 组 件 

MongoDB 的 分 片 机 制 允 许 你 创建 一 个 包含 许多 台 机 器 (分 片 ) 的 集群 ， 将 数据 子 
集 分 散在 集群 中 ， 每 个 分 片 维护 着 一 个 数据 集合 的 子 集 。 与 单机 服务 器 和 副本 集 相 
比 ， 使 用 集群 架构 可 以 使 应 用 程序 具有 更 大 的 数据 处 理 能 





许多 人 可 能 会 混淆 复制 和 分 片 的 概念 。 记 住 ， 复 制 是 让 多 人 台 服 务 器 都 拥有 
心 同样 的 数据 副本 ， 每 一 台 服 务 器 都 是 其 他 服务 器 的 镜像 ， 而 每 一 个 分 片 都 
心 ， 有 其 他 分 片 拥有 不 同 的 数据 子 集 。 


分 片 的 目标 之 一 是 创建 一 个 拥有 5 台 、10 台 甚 至 1000 台 机 器 的 集群 ， 整 个 集群 对 
应 用 程序 来 说 就 像 是 一 台 单机 服务 器 。 为 了 对 应 用 程序 隐藏 数据 库 架 构 的 细节 ， 在 
分 片 之 前 要 先 执行 mongos 进行 一 次 路 由 过 程 。 这 个 路 由 服务 器 维护 着 一 个 “内 容 
列表 ”， 指 明了 每 个 分 片 包含 什么 数据 内 容 。 应 用 程序 只 需要 连接 到 路 由 服务 器 ， 就 
可 以 像 使 用 单机 服务 器 一 样 进行 正常 的 请 求 了 ， 如 图 13-1 所 示 。 路 由 服务 器 知道 哪 
些 数 据 位 于 哪个 分 片 ， 可 以 将 请 求 转发 给 相应 的 分 片 。 每 个 分 片 对 请 求 的 响应 都 会 
发 送 给 路 由 服务 器 ， 路 由 服务 器 将 所 有 响应 合并 在 一 起 ， 返 回 给 应 用 程序 。 对 应 用 
程序 来 说 ， 它 只 知道 自己 是 连接 到 了 一 台 单 机 mongod 服务 器 ， 如 图 13-2 所 示 。 
































图 13-1: 使 用 分 片 的 连接 
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13-2: 不 使 用 分 片 的 连接 


13.3 ”快速 建立 一 个 简单 的 集群 


如 前 面 介 绍 复制 时 一 样 ， 本 节 会 在 单 台 服务 器 上 快速 建立 一 个 集群 。 首 先 ， 使 用 
- -nodb 选项 启动 mongo shell: 





$ mongo --nodb 


使 用 ShardingTest 类 创建 集群 : 


> cluster = new ShardingTest({"shards" : 3, "chunksize" : 1}) 
第 16 章 会 详细 介绍 chunksize 选项 ， 目 前 来 说 可 以 简单 将 其 设置 为 1。 


运行 这 个 命令 就 会 创建 一 个 包含 3 个 分 片 (mongod 进程 ) 的 集群 ， 分 别 运 行 在 
30000、30001、30002 端口 。 上 默认 情况 下 ，ShardingTest 会 在 30999 端口 启动 
mongos。 接 下 来 就 连接 到 这 个 mongos 开始 使 用 集群 。 


集群 会 将 日 志 输 出 到 当前 shell 中 ， 所 以 再 打开 一 个 shell 用 来 连接 到 集群 的 mongos: 


> db = (new Mongo("localhost:30999")).getDB("test") 


现在 的 情况 如 图 13-1 所 示 : 客户 端 (shell) 连接 到 了 一 个 mongos。 现 在 就 可 以 将 
请 求 发 送 给 mongos 了 ， 它 会 自动 将 请 求 路 由 到 合适 的 分 片 。 客 户 端 不 需要 知道 分 
片 的 任何 信息 ， 比 如 分 片 数量 和 分 片 地 址 。 只 要 有 分 片 存 在 ， 就 可 以 问 mongos 发 
送 请 求 ， 它 会 自动 将 请 求 转发 到 合适 的 分 片上 。 
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首先 插入 一 些 数据 : 


> for (var i=0; i<100000; i++) { 
db.users.insert({"username" : "user"+i, "created at" : new Date()}); 


a 
> db.users.count() 
100000 


可 以 看 到 ， 与 mongos 进行 交互 与 使 用 单机 服务 器 完全 一 样 ， 如 图 13-2 所 示 。 


运行 sh.status() 可 以 看 到 集群 的 状态 : 分 片 摘 要 信息 、 数 据 库 摘要 信息 、 集 合 
摘要 信息 : 





> sh.status() 
- Sharding Status --- 


sharding version: { " id" : 1, "version" : 3 } 
shards: 
{ " ‘id "shard0000", "host" : "localhost:30000" } 
{ "_ id" : "shard0001", "host" : "localhost:30001" } 
{ "_id" : "shard0002", "host" : "localhost:30002" } 
databases: 
{ "Ld" "admin", "partitioned" : false, "primary" : "conNg" } 
td "test", "partitioned" : false, "primary" : "shard0001" } 


sh 命令 与 rs 命令 很 像 ， 除 了 它 是 用 于 分 片 的 : rs 是 一 个 全 局 变量 ， 其 中 定义 了 
许多 分 片 操 作 的 辅助 函数 。 可 以 运行 sh.help() 查看 可 以 使 用 的 辅助 函数 。 如 
sh.stats() 的 输出 所 示 ， 当 前 拥有 3 个 分 片 ，2 个 数据 库 (其 中 admin 数据 库 是 
自动 创建 的 )。 

与 上 面 sh.stats() 的 输出 信息 不 同 ,test 数据 库 可 能 有 一 个 不 同 的 主 分 片 
(primary shard)。 主 分 片 是 为 每 个 数据 库 随 机 选择 的 ， 所 有 数据 都 会 位 于 主 分 片上 。 
MongoDB 现在 还 不 能 自动 将 数据 分 发 到 不 同 的 分 片上 ， 因 为 它 不 知道 你 希望 如 何 
分 发 数据 。 必 须要 明确 指定 ， 对 于 每 一 个 集合 ， 应 该 如 何 分 发 数据 。 


a 








主 分 片 与 副本 集中 的 主 节 点 不 同 。 主 分 片 指 的 是 组 成 分 片 的 整个 副本 集 。 
心 。 而 副本 集中 的 主 节 点 是 指 副本 集中 能 够 处 理 写 请 求 的 单 台 服务 器 。 


sl 
0 








要 对 一 个 集合 分 片 ， 首 先 要 对 这 个 集合 的 数据 库 启用 分 片 ， 执 行 如 下 命令 : 
> sh.enableSharding("test") 


现在 就 可 以 对 test 数据 库 内 的 集合 进行 分 片 了 。 
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对 集合 分 片 时 ， 要 选择 一 个 片 键 (shard key)。 片 键 是 集合 的 一 个 键 ，MongoDB 
根据 这 个 键 拆 分 数据 。 例 如 ， 如 果 选 择 基 于 "username'" 进行 分 片 ，MongoDB 
会 根据 不 同 的 用 户 名 进行 分 片 : "al-steak-sauce" 到 "defcon" 位 于 第 一 片 ， 
"defcon1" 到 "howie1998" 位 于 第 二 片 ， 以 此 类 推 。 选 择 片 键 可 以 认为 是 选择 集 


合 中 数据 的 顺序 。 它 与 索引 是 个 相似 的 概念 : 

















集合 上 最 重要 的 索引 。 只 有 被 索引 过 的 键 才能 够 作为 片 键 。 





> db.users.ensureIndex({"username" : 


在 启用 分 片 之 前 ， 先 在 希望 作为 片 键 的 键 上 创建 索引 : 


1}) 


现在 就 可 以 依据 "username" 对 集合 分 片 了 : 





> sh.shardCollection("test.users", {"username" : 





尽 
会 详细 介绍 如 何 选 择 片 键 。 
儿 分 钟 之 后 再 次 运行 sh . status()， 
- Sharding Status --- 
sharding version: { " id" : 1, 
shards: 
{ "id" : "shard0000", "host" 
{ "id" : "shard0001", "host" 
{ "id" : "shard0002", "host" 
databases: 
{ "_id" : "admin", "partitioned" : 
{ "id" : "test", "partitioned" 


test.users chunks: 
shard0001 4 
shard0002 4 
shard0000 5 


{ "username" 
on : 
{ "username" : 
on : 
{ "username" : 
on : 
{ "username" : 
on : 
{ "username" : 
on 
{ "username" : 
on : 


: { $minKey : 
shard0001 


shard0002 


shard0001 


shard0002 


: shard0001 


shard0002 


"version" 


true, 


"user24083" } - 


"user31126" } - 


"user38170" } - 


"user45213" } - 


1}) 


“3 证 


: "localhost:30000" 上 
: "localhost:30001" } 
: "localhost:30002" 上 


"primary" : 


1}}-->> { "username" : 


"user1704" } -->> { "username" :; " 


->> { "USername" 


->> { "USername" 


->> { "USername" 


->> { "USername" 


false, "primary" : 


"config" } 
"shard0000" } 


user24083" } 


: "User31126" } 


"user38170" } 


"user45213" } 


"user52257" } 


可 以 看 到 ， 这 次 的 输出 信息 比较 多 : 


"user1704" } 


随 着 集合 的 不 断 增 长 ， 片 键 就 会 成 为 


管 我 们 这 里 选择 片 键 时 并 没有 作 太 多 考虑 ， 但 是 在 实际 中 应 该 仔细 其 酌 。 第 15 章 
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{ "username" "user52257" } -->> { 
on : shard0001 

{ "username" "user59300" } -->> { 
on : shard0002 

{ "username" "user66344" } -->>{ 
on : shard0000 

{ "username" "user73388" } -->>{ 
on : shard0000 

{ "username" "user80430" } -->>{ 
on : shard0000 

{ "username" "user87475" } -->> { 
on : shard0000 

{ "username" "user94518" } -->> { 
on : shard0000 


集合 被 分 为 了 多 个 数据 块 ， 
照片 键 的 范围 排列 的 es 
maxValue} 指出 了 每 个 数据 块 的 数据 范围 














"username" "user59300" } 
"username" "user66344" 上 
"username" "user73388" } 
"username" "user80430" 上 
"username" "user87475" } 
"Username" "user94518" 上 
"username" : { $maxKey : 1 } } 


一 个 数据 块 都 是 集合 的 一 个 数据 子 集 。 


minValue} --> 


是 按 


> ea 





)。 通 过 查看 输 


shard 部 分 ， 可 以 发 现 集合 数据 比较 均匀 地 分 布 在 不 同 分 片上 。 


将 集合 拆 分 为 多 个 数据 块 的 过 程 如 图 13-3 到 
上 是 一 个 单一 的 数据 块 。 


这 块 数据 块 被 分 布 在 集群 中 的 每 个 分 片上 ， 如 








图 13-5 所 示 。 


Hi 信息 中 的 "on" 


图 13-5 所 示 。 在 分 片 之 前 ， 集 合 实际 
分 片 依据 片 键 将 集合 拆 分 为 多 个 数据 块 ， 如 





图 13-4 所 示 。 





User0 





User999999 








13-3: 在 分 片 之 前 ， 可 以 认为 集合 是 一 个 单一 的 数据 块 ， 从 片 键 的 最 小 值 一 直到 片 键 的 最 


大 值 都 位 于 这 个 块 








SminKey 上 user1704 | user24083 | | user31126 | | user38170 | | user45213 上 | user52257 
user1704 昨 user24083 Buser31126 | | user38170 | | user45213 || user52257 | user59300 
user59300 | | user66344 | | user73388 [| user80430 [| user87475 | | user94518 
user66344 | user73388 | | user80430 | user87475 | user94518 || $maxKey 








图 13-4: 分 片 依据 片 键 范围 将 集合 拆 分 为 多 个 数据 块 








分 片 0000 
User66344 | | user73388 | | user80430 上 | user87475 | | user94518 
user73388 | | user80430 | | user87475 | | user94518 | | smaxKkey 


分 片 0001 


es ee i 
es ee i 


分 片 0002 

user1704 | |user31126 | | user45213 | | user59300 

user24083 B | user38170 | | user52257 | | user66344 
13-5: 数据 块 均衡 地 分 布 在 不 同 分 片上 


注意 ， 数 据 块 列表 开始 的 键 值 和 结束 的 键 值 ， $minkKey 和 $maxKey。 可 以 将 
$minKey 认为 是 “ 负 无 穷 ?， 它 比 MongoDB 中 的 任何 值 都 要 小 。 类 似 地 ， 可 以 将 
$maxKey 认为 是 “ 正 无 穷 ?， 它 比 MongoDB 中 的 任何 值 都 要 大 。 因 此 ， 经 常会 见 到 
这 两 个 “ 端 值 ”出 现在 数据 块 范围 中 。 片 键 值 的 范围 始终 位 于 $minKey 和 $maxKey 
之 间 。 这 些 值 实际 上 是 BSON 类 型 ， 只 是 用 于 内 部 使 用 ， 不 应 该 被 用 在 应 用 程序 
中 。 如 果 和 希望 在 shell 中 使 用 的 话 ， 可 以 用 MinKey 和 MaxKey 常量 代替 。 


现在 数据 已 经 分 布 在 多 个 分 片上 了 ， 接 下 来 做 一 些 查 询 操 作 。 首 先 ， 做 一 个 基于 指 
定 的 用 户 名 的 查询 : 












































> db.users.Nnd({username: "user12345"}) 


{ 
"_id" : ObjectId("50b0451951d30ac5782499e6")， 
"username" : "userl2345", 
"created at" : ISODate("2012-11-24T03:55:05.6362") 
} 


可 以 看 到 ， 查 询 可 以 正常 工作 。 现 在 运行 explain() 来 看 看 MongoDB 到 底 是 如 何 
处 理 这 次 查询 的 : 


> db.users.find({username: "user12345"}}) .expLain() 


{ 
"clusteredType" : "ParallelSort", 
"shards" : { 
"localhost:30001" :; [ 
{ 
"cursor" : "BtreeCursor username 1", 
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"nscanned" : 1， 


"nscannedObjects" : 1, 


ne 1 
"millis" :; 0, 


"nYields" : 0， 


"nChunkSkips" 


"isMultikKey" : 


"indexOnly" : 


[ 


Dy, 


false, 


false, 
"indexBounds" : 
"username" : 


eh 
[ 


"user1l2345", 
"user1l2345" 


}, 

sh 
"nChunkSkips" : 0, 
"nYields" : 0, 
"nscanned" : 1, 
"nscannedObjects" 
"millisTotal" : 0, 
"millisAvg" : 0， 
"numQueries" : 1, 
"numShards" : 1 


} 





es 


一 个 看 起 来 比较 普通 的 explain() 输出 在 套 在 另 一 个 


explain() 输出 中 。 外 层 的 explain() 输出 来 自 mongos: 描述 了 为 了 处 理 这 个 查 
询 ，mongos 所 做 的 工作 。 内 层 的 explain() 输出 来 自 查 询 所 使 用 的 分 片 ， 在 本 例 


中 是 Localhost:30001。 


由 于 "username" 是 片 键 ， 


所 以 mongos 能 够 直接 将 查询 发 送 到 正确 的 分 片上 。 作 


为 对 比 ， 来 看 一 下 查询 所 有 数据 的 过 程 ; 


> db.users.find().explain() 


{ 


"clusteredType" : "ParallelSort", 


"shards" : { 


"localhost:30000" : 


{ 


[ 


"cursor" : "BasicCursor", 
"nscanned" : 37393, 
"nscannedObjects" : 37393, 


"i37393; 

"millis" : 38, 
"nYields" : 0， 
"nChunkSkips" 
"isMultikKey" : 


+ 
false, 





"indexOnly" : false, 


"indexBounds" : { 
} 
} 
]5 
"localhost:30001" :; [ 
{ 
"cursor" : "BasicCursor", 
"nscanned" : 31303, 
"nscannedObjects" : 31303, 
"n"” : 31303, 
"millis"” : 37, 
"nYields" : 0, 
"nChunkSkips" : 0， 
"isMultikKey" : false, 
"indexOnly" : false, 
"indexBounds" : { 
} 
} 
1 
"localhost:30002" :; [ 
{ 
"cursor" : "BasicCursor", 
"nscanned" : 31304, 
"nscannedObjects" : 31304, 
"n" : 31304, 
"millis" : 36, 
"nYields" : 0, 
"nChunkSkips" : 0， 
"isMultikKey" : false, 
"indexOnly" : false, 
"indexBounds" : { 
} 
} 
] 
}, 
"n" : 100000, 
"nChunkSkips" : 0, 
"nYields" : 0， 


"nscanned" : 100000, 
"nscannedObjects" : 100000, 
"millisTotal" : 111, 
"millisAvg" : 37, 
"numQueries" :; 3, 
"numShards" : 3 


} 


可 以 看 到 ， 这 次 查询 不 得 不 访问 所 有 3 个 分 片 ， 查 询 出 所 有 数据 。 通 常 来 说 ， 如 果 
没有 在 查询 中 使 用 片 键 ，mongos 就 不 得 不 将 查询 发 送 到 每 个 分 片 。 
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包含 片 键 的 查询 能 够 直接 被 发 送 到 目标 分 片 或 者 是 集群 分 片 的 一 个 子 集 ， 这 样 的 查 
询 叫 做 定向 查询 (targeted query)。 有 些 查询 必须 被 发 送 到 所 有 分 片 ， 这 样 的 查询 叫 
做 分 散 - 聚集 查询 (scatter-gather query) : mongos 将 查询 分 散 到 所 有 分 片上 ， 然 后 
将 各 个 分 片 的 查询 结果 聚集 起 来 。 


完成 这 个 实验 之 后 ， 关 闭 数据 集 。 切 换 回 最 初 的 shell， 按 几 次 Enter 键 以 回 到 命令 
行 。 然 后 运行 cLuster.stop() 就 可 以 关闭 整个 集群 了 。 


妇 


0 








> cluster.stop() 


果 不 确定 某 个 操作 的 作用 ， 可 以 使 用 ShardingTest 快速 创建 一 个 本 地 集群 然后 




















做 一 些 尝 试 。 
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第 14 章 


配置 分 片 








上 一 章 中 ， 我 们 在 一 台 机 器 上 创建 了 一 个 “集群 ”"。 本 章 讲述 如 何 创建 一 个 更 实际 的 
集群 ， 以 及 分 片 的 配置 。 

。 创建 配置 服务 器 、 分 片 、mongos 进程 。 

。 增加 集群 容量 。 

。 数据 的 存储 和 分 布 。 


14.1 何 时 分 片 

决定 何 时 分 片 是 一 个 值得 权衡 的 问题 。 通 常 不 必 太 早 分 片 ， 因 为 分 片 不 仅 会 增加 部 署 
的 操作 复杂 度 ， 还 要 求 做 出 设计 决策 ， 而 该 决策 以 后 很 难 再 改 。 另 外 最 好 也 不 要 在 系 
统 运行 大 久之 后 再 分 片 ， 因 为 在 一 个 过 载 的 系统 上 不 停机 进行 分 片 是 非常 困难 的 。 











。 增加 可 用 RAM ; 

。 增加 可 用 磁盘 空间 ， 

。 减轻 单 台 服务 器 的 负载 ， 

。 处 理 单个 mongod 无 法 承受 的 吞吐 量 。 


因此 ， 展 好 的 监控 对 于 决定 应 何 时 分 片 是 十 分 重要 的 ， 必 须 认真 对 待 其 中 每 一 项 。 
由 于 人 们 往往 过 于 关注 改进 其 中 一 个 指标 ， 所 以 应 弄 明 白 到 底 哪 一 项 指标 对 自己 的 
部 署 最 为 重要 ， 并 提前 做 好 何 时 分 片 以 及 如 何 分 片 的 计划 。 
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随 着 不 断 增加 分 片 数 量 ， 系 统 性 能 大 致 会 呈 线 性 增长 。 但 是 ， 如 有 果 从 一 个 未 分 片 的 
系统 转换 为 只 有 儿 个 分 片 的 系统 ， 性 能 通常 会 有 所 下 降 。 由 于 迁移 数据 、 维 护 元 数 
据 、 路 由 等 开销 ， 少 量 分 片 的 系统 与 未 分 片 的 系统 相 比 ， 通 常 延迟 更 大 ， 否 吐 量 其 
至 可 能 会 更 小 。 因 此 ， 至 少 应 该 创建 3 个 或 以 上 的 分 片 。 


14.2 ”启动 服务 器 


创建 集群 的 第 一 步 是 启动 所 有 所 需 进 程 。 如 上 章 所 述 ， 需 建立 mongos 和 分 片 。 第 
三 个 组 件 一 一 配置 服务 器 也 非常 重要 。 配 置 服务 器 是 普通 的 mongod 服务 器 ， 保 存 
着 集群 的 配置 信息 : 集群 中 有 哪些 分 片 、 分 片 的 是 哪些 集合 ， 以 及 数据 块 的 分 布 。 












































14.2.1 配置 服务 器 

配置 服务 器 相当 于 集群 的 大 脑 ， 保 存 着 集群 和 分 片 的 元 数据 ， 即 各 分 片 包 含 哪些 数 
据 的 信息 。 因 此 ， 应 该 首先 建立 配置 服务 器 ， 鉴 于 它 所 包含 数据 的 极端 重要 性 ， 必 
须 启用 其 日 志 功能 ， 并 确保 其 数据 保存 在 非 易 失 性 驱动 器 上 。 每 个 配置 服务 器 都 应 
位 于 单独 的 物理 机 器 上 ， 最 好 是 分 布 在 不 同 地 理 位 置 的 机 器 上 。 


mongos 需 从 配置 服务 器 获取 配置 信息 ， 因 此 配置 服务 器 应 先 于 任何 mongos 进程 
启动 。 配 置 服务 器 是 独立 的 mongod 进程 ， 所 以 可 以 像 启动 “普通 的 ”mongod 进程 
一 样 启动 配置 服务 器 : 








$ # server-conNg-1 

$ mongod --conNgsvr --dbpath /var/lib/mongodb -f /var/lib/conNg/mongod.conf 
$ 

$ # server-conNg-2 

$ mongod --conNgsvr --dbpath /var/lib/mongodb -f /var/lib/conNg/mongod.conf 
$ 

$ # server-conNg-3 

$ mongod --conNgsvr --dbpath /var/lib/mongodb -f /var/lib/conNg/mongod.conf 


启动 配置 服务 器 时 ， 不 要 使 用 --replSet 选项 : 配置 服务 器 不 是 副本 集成 员 。 
mongos 会 向 所 有 3 台 配 置 服务 器 发 送 写 请 求 ， 执 行 一 个 两 步 提 交 类 型 的 操作 ， 以 确 
保 3 台 服 务 器 拥有 相同 的 数据 ， 所 以 这 3 台 配 置 服务 器 都 必须 是 可 写 的 (在 副本 集 
中 ， 只 有 主 节 点 可 以 处 理 客户 端的 写 请 求 ) 。 





> 一 个 常见 的 疑问 是 ， 为 什么 要 用 3 台 配 置 服务 器 ?因为 我 们 需要 考虑 不 时 
Eyl 之 需 。 但 是 ， 也 不 需要 过 多 的 配置 服务 器 ， 因 为 配置 服务 器 上 的 确认 动作 

”是 比较 耗 时 的 。 另 外 ， 如 果 有 服务 器 宕 机 了 ， 集 群 元 数据 就 会 变 成 只 读 的 。 
因此 ，3 台 就 足够 了 ， 既 可 以 应 对 不 时 之 需 ， 又 无 需 承受 服务 器 过 多 带 来 
的 缺点 。 这 个 数字 未 来 可 能 会 发 生变 化 。 
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- -configsvr 选项 指定 mongod 为 新 的 配置 服务 器 。 该 选项 并 非 必 选项 ， 因 为 它 所 
做 的 不 过 是 将 mongod 的 默认 监听 端口 改 为 27019， 并 把 默认 的 数据 目录 改 为 /data/ 
configdb 而 已 (可 使 用 - -port 和 - -dbpath 选项 修改 这 两 项 配置 )。 


但 建议 使 用 --configsvr 选项 ， 因 为 它 比 较 直 白地 说 明了 这 些 配置 服务 器 的 用 途 。 
当然 ， 如 果 不 用 它 启 动 配置 服务 器 也 没 问题 。 


配置 服务 器 并 不 需要 太 多 的 空间 和 资源 。 配 置 服务 器 的 1 KB 空间 约 等 于 200 MB 真 
实数 据 ， 它 保存 的 只 是 数据 的 分 布 表 。 由 于 配置 服务 器 并 不 需要 太 多 的 资源 ， 因 此 
可 将 其 部 署 在 运行 着 其 他 程序 的 机 器 上 ， 如 应 用 服务 器 、 分 片 的 mongod 服务 器 ， 
或 mongos 进程 的 服务 器 上 。 

如 果 所 有 的 配置 服务 器 都 不 可 用 ， 就 要 对 所 有 分 片 做 数据 分 析 ， 以 便 知道 每 个 分 片 
保存 的 是 什么 样 的 数据 。 这 是 可 行 的 ， 但 速度 较 慢 ， 且 令 人 厌烦 。 比 较 好 的 方式 是 经 
第 对 配置 服务 器 做 数据 备份 。 应 常 在 执行 集群 维护 操作 之 前 备份 配置 服务 器 的 数据 。 




















14.2.2 mongos 进 程 
三 个 配置 服务 器 均 处 于 运行 状态 后 ， 启 动 一 个 mongos 进程 供应 用 程序 连接 。 
mongos 进程 需 知 道 配置 服务 器 的 地 址 ， 所 以 必须 使 用 - -conNgdb 选项 启动 mongos: 


$ mongos --configdb config-1:27019,config-2:27019,config-3:27019 \ 

> -f /var/lib/mongos.conf 
默认 情况 下 ，mongos 运行 在 27017 端口 。 注 意 ， 并 不 需要 指定 数据 目录 (mongos 
自身 并 不 保存 数据 ， 它 会 在 启动 时 从 配置 服务 器 加 载 集群 数据 )。 确 保 正确 设置 了 
Logpath， 以 便 将 mongos 日 志保 存 到 安全 的 地 方 。 


可 启动 任意 数量 的 mongos 进程 。 通 常 的 设置 是 每 个 应 用 程序 服务 器 使 用 一 个 
mongos 进程 (与 应 用 服务 器 运行 在 同一 台 机 器 上 )。 


每 个 mongos 进程 必须 按照 列表 顺序 ， 使 用 相同 的 配置 服务 器 列表 。 


14.2.3 ”将 副本 集 转换 为 分 片 
终于 可 以 添加 分 片 了 。 有 两 种 可 能 性 ， 已 经 有 了 一 个 副本 集 ,或 是 从 零 开始 建立 集 
群 。 下 例假 设 我 们 已 经 拥有 了 一 个 副本 集 。 如 果 是 从 零 开始 的 话 ， 可 先 初始 化 一 个 
空 的 副本 集 ， 然 后 按照 本 例 的 步 又 进行 后 续 操作 。 


如 已 经 有 一 个 使 用 中 的 副本 集 ， 该 副本 集会 成 为 第 一 个 分 片 。 为 了 将 副本 集 转 换 为 
分 片 ， 需 告知 mongos 副本 集 名 称 和 副本 集成 员 列 表 。 
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例如 ， 如 果 在 server-1、server-2、server-3、server-4、server-5 上 有 一 个 名 为 spock 
的 副本 集 ， 可 连接 到 mongos 并 运行 : 


> sh.addShard("spock/server-1:27017,server-2:27017,server-4:27017") 


"added" : "spock/server-1:27017,server-2:27017,server-4:27017", 
"ok" : true 


} 


可 在 参数 中 指定 副本 集 的 所 有 成 员 ， 但 并 非 一 定 要 这 样 做 。mongos 能 够 自动 检测 到 
没有 包含 在 副本 集成 员 表 中 的 成 员 。 如 运行 sh .status()， 可 发 现 MongoDB 已 经 
找到 了 其 他 的 副本 集成 员 : "spock/server- 1:27017,server-2:27017,server- 
4:27017,server-3:27017,server-5:27017"。 








副本 集 名 称 spock 被 用 作 分 片 名 称 。 如 之 后 希望 移 除 这 个 分 片 或 是 向 这 个 分 片 迁 移 
数据 ， 可 使 用 spock 来 标识 这 个 分 片 。 这 比 使 用 特定 的 服务 器 名 称 (如 server-1) 
要 好 ， 因 为 副本 集成 员 和 状态 是 不 断 改变 的 。 


将 副本 集 作 为 分 片 添加 到 集群 后 ， 就 可 以 将 应 用 程序 设置 从 连接 到 副本 集 改 为 连接 
到 mongos。 添 加 分 片 后 ，mongos 会 将 副本 集 内 的 所 有 数据 库 注册 为 分 片 的 数据 库 ， 
因此 所 有 查询 都 会 被 发 送 到 新 的 分 片上 。 与 客户 端 库 一样 ，mongos 会 自动 处 理应 用 
故障 ， 将 错误 返回 给 客户 端 。 


在 开发 环境 中 可 测试 一 下 让 分 片 的 主 节点 挂 掉 ， 以 确保 应 用 程序 能 够 正确 处 理 
mongos 返回 的 错误 。( 错 误 应 与 直接 对 话 主 节 点 返回 的 错误 相同 。) 





添加 分 片 后 ， 必 须 将 客户 端 设 置 为 将 所 有 请 求 发 送 到 mongos， 而 不 是 副 
4 4 本 集 。 如 果 客 户 端 仍然 把 请 求 直 接 发 送 给 副本 集 (而 不 是 通过 mongos) 的 
一 4 话 ， 分 片 是 无 法 正常 工作 的 。 添 加 分 片 后， 应 立即 将 客户 端 配 置 为 把 请 求 
发 送 给 mongos， 同 时 配置 防火 墙 规则 ， 以 确保 客户 端 不 能 直接 将 请 求 发 送 

给 分 片 。 











有 一 个 --shardsvr 选项 ， 与 前 面 介绍 过 的 - -configsvr 选项 类 似 ， 它 也 没什么 
实用 性 (只 是 将 默认 端口 改 为 27018), 但 建议 在 操作 中 选择 该 选项 。 

也 可 以 创建 单 mongod 服务 器 的 分 片 (而 不 是 副本 集 分 片 )， 但 不 建议 在 生产 中 使 
用 (上 一 章 中 的 ShardingTest 是 这 么 做 的 )。 直 接 在 addShard() 中 指定 单个 
mongod 的 主机 名 和 端口 ， 就 可 以 将 其 添加 为 分 片 了 : 


> sh.addShard("some-server:27017") 
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单一 服务 器 分 片 默认 会 被 命名 为 shard0000、shard0001， 依 次 类 推 。 如 打算 以 后 切 
换 为 副本 集 ， 应 先 创建 一 个 单 成 员 副 本 集 再 添加 为 分 片 ， 而 不 是 直接 将 单一 服务 器 
添加 为 分 片 。 将 单一 服务 器 分 片 转换 为 副本 集 需 停机 操作 ( 详 见 16.3 节 ) 。 





14.2.4 增加 集群 容量 

可 通过 增加 分 片 来 增加 集群 容量 。 为 添加 一 个 新 的 、 空 的 分 片 ， 可 先 创建 一 个 副本 
集 。 确 保 副本 集 的 名 字 与 其 他 分 片 不 同 。 副 本 集 完成 初始 化 并 拥有 一 个 主 节点 后 ， 
可 在 mongos 上 运行 addShard() 命令 ,将 副本 集 作为 分 片 添加 到 集群 中 ， 在 参数 
中 指定 副本 集 的 名 称 和 主机 名 作为 种 子 。 


如 有 多 个 现存 的 副本 集 没有 作为 分 片 ， 只 要 它们 没有 同名 的 数据 库 ， 就 可 将 它们 作 
为 新 分 片 全 部 添加 到 集群 中 。 例 如 ， 如 有 一 个 blog 数据 库 的 副本 集 、 一 个 calendar 
数据 库 的 副本 集 ， 以 及 一 个 mail、tel、music 数据 库 的 副本 集 ， 可 将 每 个 副本 集 作 
为 一 个 分 片 添加 到 集群 中 ， 这 样 就 可 以 得 到 一 个 拥有 三 个 分 片 、 五 个 数据 库 的 集群 。 
但 是 ， 如 果 还 有 一 个 数据 库 名 称 为 tel 的 副本 集 ， 那 么 mongos 会 拒绝 将 这 个 副本 集 
作为 分 片 添 加 到 集群 中 。 


14.2.5 ”数据 分 片 
除非 明确 指定 规则 ， 否 则 MongoDB 不 会 自动 对 数据 进行 拆 分 。 如 有 必要 ， 必 须 明 
确 告知 数据 库 和 集合 。 


假设 我 们 希望 对 music 数据 库 中 的 artists 集合 按照 name 键 进行 分 片 。 首 先 ， 对 
music 数据 库 启 用 分 片 : 


























> db.enableSharding("music") 
对 数据 库 分 片 是 对 集合 分 片 的 先决 条 件 。 
数据 库 启 用 分 片 后， 就 可 以 使 用 shardCollection() 命令 对 集合 分 片 了 : 





部 


> sh.shardCollection("music.artists", {"name" : 1}) 




















现在 ， 和 集合 会 按照 name 键 进行 分 片 。 如 果 是 对 已 存在 的 集合 进行 分 片 ， 那 么 name 
键 上 必须 有 索引 ， 否 则 shardCollection() 会 返回 错误 。 0 就 
先 创 建 索 引 (mongos 会 建议 创建 的 索引 作为 错误 消息 的 一 部 分 返回 )， 然 后 重 试 


shardCollection() 命令 。 


如 要 进行 分 片 的 集合 还 不 存在 ，mongos 会 自动 在 片 键 上 创建 索引 。 
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shardCollection() 命令 会 将 集合 拆 分 为 多 个 数据 块 ， 这 是 MongoDB 迁移 数据 的 
基本 单元 。 命 令 成 功 执行 后 ，MongoDB 会 均衡 地 将 集合 数据 分 散 到 集群 的 分 片上 。 
这 个 过 程 不 是 瞬间 完成 的 ， 对 于 比较 大 的 集合 ， 可 能 会 花费 几 个 小 时 才能 完成 。 


14.3 MongoDB 如 何 追 踪 集 群 数据 


每 个 mongos 都 必须 能 够 根据 给 定 的 片 键 找到 文档 的 存放 位 置 。 理 论 上 来 说 ， 
MongoDB 能 够 追踪 到 每 个 文档 的 位 置 ， 但 当 集 合 中 包含 成 百 上 千 万 个 文档 的 时 候 ， 
就 会 变 得 难以 操作 。 因 此 ，MongoDB 将 文档 分 组 为 块 (chunk)， 每 个 块 由 给 定 片 
键 特定 范围 内 的 文档 组 成 。 一 个 块 只 存在 于 一 个 分 片上 ， 所 以 MongoDB 用 一 个 比 
较 小 的 表 就 能 够 维护 块 跟 分 片 的 映射 。 

例如 ， 如 用 户 集 合 的 片 键 是 {"age" : 1}， 其 中 某 个 块 可 能 是 由 age 值 为 3~17 的 
文档 组 成 的 。 如 果 mongos 得 到 一 个 {"age" : 5} 的 查询 请 求 ， 它 就 可 以 将 查询 路 
由 到 age 值 为 3~17 的 块 所 在 的 分 片 。 

















进行 写 操作 时 ， 块 内 的 文档 数量 和 大 小 可 能 会 发 生 改变 。 插 入 文档 可 使 块 包含 更 多 
的 文档 ， 删 除 文档 则 会 减少 块 内 文档 的 数量 。 如 果 我 们 针对 儿童 和 中 小 学 生 制 作 游 
戏 ， 那 么 这 个 age 值 为 3~17 的 块 可 能 会 变 得 越 来 越 大 。 几 乎 所 有 的 用 户 都 会 被 包 
含 在 这 个 块 内 ， 且 在 同一 分 片上 。 这 就 违背 了 我 们 分 布 式 存放 数据 的 初 囊 。 因 此 ， 
当 一 个 块 增长 到 特定 大 小 时 ，MongoDB 会 自动 将 其 拆 分 为 两 个 较 小 的 块 。 在 本 例 
， 该 块 可 能 会 被 拆 分 为 一 个 age 值 为 3~11 的 块 和 一 个 age 值 为 12~17 的 块 。 注 
， 这 两 个 小 块 包含 了 之 前 大 块 的 所 有 文档 以 及 age 的 全 部 域 值 。 这 些小 块 变 大 
， 会 被 继续 拆 分 为 更 小 的 块 ， 直 到 包含 age 的 全 部 域 值 。 


块 与 块 之 间 的 age 值 范围 不 能 有 交集 ， 如 3~15 和 12~17。 如 果 存 在 交集 的 话 ， 那 
么 MongoDB 为 了 查询 处 于 交集 中 的 age 值 (如 14) 时 ， 则 需 分 别 查找 这 两 个 块 。 
只 在 一 个 块 中 进行 查找 效率 会 更 高 ， 尤 其 是 在 块 分 散在 集群 中 时 。 


一 个 文档 ， 属 于 且 只 属于 一 个 块 。 这 意味 着 ， 不 可 以 使 用 数组 字段 作为 片 键 ， 
为 MongoDB 会 为 数组 创建 多 个 索引 条 目 。 例 如 ， 如 某 个 文档 的 age 字段 值 是 [5， 
26，83] ， 该 文档 就 会 出 现在 三 个 不 同 的 块 中 。 











耻 放 于 








一 个 常见 的 误解 是 同一 个 块 内 的 数据 保存 在 磁盘 的 同一 片区 域 。 这 是 不 正 
心 。 确 的 ， 块 并 不 影响 mongod 保存 集合 数据 的 方式 。 
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14.3.1 块 范 围 

可 使 用 块 包含 的 文档 范围 来 描述 块 。 新 分 片 的 集合 起 初 只 有 一 个 块 ， 所 有 文档 都 位 
于 这 个 块 中 。 此 块 的 范围 是 负 无 穷 到 正 无 穷 ， 在 shell 中 用 $minKey 和 $maxKey 
表示 。 


随 着 块 的 增长 ，MongoDB 会 自动 将 其 分 成 两 个 块 ， 范 围 分 别 是 负 无 穷 到 <some 
value> 和 <some value> 到 正 无 穷 。 两 个 块 中 的 <some value> 值 相 同 ， 范 围 较 小 
的 块 包含 比 <some value> 小 的 所 有 文档 (但 不 包含 <some value> 值 )， 范围 较 大 
的 块 包含 从 <some value> 一 直到 正 无 穷 的 所 有 文档 (包含 <some value> 值 )。 


用 一 个 例子 来 更 直观 地 说 明 : 假如 我 们 按照 之 前 提 到 的 "age" 字段 进行 分 片 。 所 有 
"age" 值 为 3~17 的 文档 都 包含 在 一 个 块 中 : 3 < age < 17。 该 块 被 拆 分 后 ， 我 们 
得 到 了 两 个 较 小 的 块 ， 其 中 一 个 范围 是 3 < age < 12， 另 一 个 范围 是 12 < age < 
17。 这 里 的 12 就 叫做 拆 分 点 (split point) 。 


块 信息 保存 在 config.chunks 集合 中 。 查 看 集合 内 容 ， 会 发 现 其 中 的 文档 如 下 (简洁 
起 见 ， 这 里 忽略 了 一 些 字段 ) : 






































> db.chunks.find(criteria, {"min" : 1, "max" : 1}) 
{ 
"_id" : "test.users-age -100.0", 
"min" : {"age" : -100}, 
"max" : {"age" : 23} 
} 
{ 
"_ id" : "test.users-age 23.0", 
"min" : {"age" : 23}, 
"max" : {"age" : 100} 
} 
{ 


"_id" : "test.users-age 100.0", 
"min” : {"age" : 100}, 
"max" : {"age" : 1000} 

} 


基于 以 上 config.chunks 文档 ， 不 同文 档 在 块 中 的 分 布 情况 如 下 例 所 示 : 








。 {" id" : 123, "age" : 50} 
该 文档 位 于 第 二 个 块 中 ， 因 为 第 二 个 块 包含 age 值 为 23~100 的 所 有 文档 。 

。{" id" : 456, "age" : 100} 
该 文档 位 于 第 三 个 块 中 ， 因 为 较 小 的 边界 值 是 包含 在 块 中 的 。 第 二 个 块 包 含 了 
age 值 小 于 100 的 所 有 文档 ， 但 不 包含 等 于 100 的 文档 。 
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。 {" id" : 789，"age"”: -101} 
该 文档 不 位 于 上 面 所 示 的 这 些 块 中 ， 而 是 位 于 一 个 比 第 一 个 块 范围 更 小 的 块 中 。 


可 使 用 复合 片 键 ， 工 作 方 式 与 使 用 复合 索引 进行 排序 一 样 。 假 如 在 {"username'" : 
1，"age" : 1} 上 有 一 个 片 键 ， 那 么 可 能 会 存在 如 下 块 范围 : 











{ 
"_ id" : "test.users-username MinKeyage MinKey", 
ma 
"username" : { "$minKey" : 1 }, 
"age" : { "$minKey" : 1 } 
}, 
"max"” : { 
"username" : "user107487", 
"age"” : 73 
} 
要 
{ 
"_ id" : "test.users-username \"user107487\"age 73.0", 
"min" :; { 
"username" : "user107487", 
"age"” : 73 
}, 
"max" : { 
"username" : "user114978 " ， 
"age" : 119 
} 
3 
{ 
" id" : "test.users-username \"user1l14978\"age 119.0", 
hin 
"username" : "user114978 " ， 
"age" : 119 
}, 
ma 
"username" : "User1l22468", 
"age" : 68 
} 
3 


因此 ， 对 于 一 个 给 定 的 用 户 名 (或 者 是 用 户 名 和 年 龄 )，mongos 可 轻易 找到 其 所 对 
应 的 文档 。 但 如 果 只 给 定年 龄 ，mongos 就 必须 查看 所 有 (或 者 几乎 所 有 ) 块 。 如 果 
希望 基于 age 的 查询 能 够 被 路 由 到 正确 的 块 上 ， 则 需 使 用 “相反 ”的 片 键 : {"age" 

1， "username"” : 1}。 从 这 个 例子 中 我 们 可 以 得 出 一 个 结论 : 基于 片 键 第 二 个 
字段 的 范围 可 能 会 出 现在 多 个 块 中 。 


14.3.2 ” 拆 分 块 
mongos 会 记录 在 每 个 块 中 插入 了 多 少数 据 ， 一 旦 达到 某 个 阐 值 ， 就 会 检查 是 否 需 要 
对 块 进行 拆 分 ， 如 图 14-1 和 图 14-2 所 示 。 如 果 块 确实 需要 被 拆 分 ，mongos 就 会 在 
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配置 服务 器 上 更 新 这 个 块 的 元 信息 。 块 拆 分 只 需 改 变 块 的 元 数据 即 可 ， 而 无 需 进行 数据 
移动 。 进 行 拆 分 时 ， 配 置 服务 器 会 创建 新 的 块 文档 ， 同 时 修改 旧 的 块 范围 ( 即 "max" 
值 )。 拆 分 完成 后 ，mongos 会 重 置 对 原始 块 的 追踪 器 ， 同 时 为 新 的 块 创建 新 的 追踪 器 。 








mongos 


拆 分 
国 值 点 














14-1: 收 到 客户 端 发 起 的 写 请 求 时 ，mongos 会 检查 当前 块 的 拆 分 赋值 点 





mongos 


拆 分 请 求 
拆 分 
阔 值 点 


14-2: 如 果 达 到 了 拆 分 阔 值 点 ，mongos 就 会 向 分 片 发 起 一 个 针对 该 拆 分 点 的 拆 分 请 求 
mongos 向 分 片 询问 某 块 是 否 需 被 拆 分 时 ， 分 片 会 对 块 大 小 进行 粗略 的 计算 。 如 果 发 
现 块 正在 不 断 变 大 ， 它 就 会 计算 出 合适 的 拆 分 点 ， 然 后 将 这 些 信息 发 送 给 mongos， 
如 图 14-3 所 示 。 




















mongos 分 片 
可 能 的 拆 分 点 














14-3: 分 片 计算 块 的 拆 分 点 ， 并 将 这 些 信息 发 回 mongos 


分 片 有 时 可 能 会 找 不 到 任何 可 用 的 拆 分 点 (即使 此 块 较 大 )， 因 为 合法 拆 分 块 方法 有 
限 。 上 共有 相同 片 键 的 文档 必须 保存 在 相同 的 块 中 ， 因 此 块 只 能 在 片 键 的 值 发 生变 化 
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的 点 对 块 进行 拆 分 。 例 如 ， 如 果 片 键 的 值 等 于 age 的 值 ， 则 下 列 块 可 在 片 键 发 生变 
化 的 点 被 拆 分 


{"age" : 13，"username"”: "ian"} 
{"age" : 13, "username" : "randolph"} 
~- // 拆 分 点 

{"age" : 14, "username" : "randolph"} 
{"age" : 14, "username" : "eric"} 
{"age" : 14, "username" : "hari"} 
{"age" : 14, "username" : "mathias"} 
~- // 拆 分 点 

{"age" : 15, "username" : "greg"} 
{"age" : 15, "username" : "andrew"} 


mongos 无 需 在 每 个 可 用 的 拆 分 点 对 块 进行 拆 分 ， 但 拆 分 时 只 能 从 这 些 拆 分 点 中 选择 一 个 。 
例如 ， 如 果 块 包含 下 列 文档 ， 则 此 块 不 可 拆 分 ， 除 非 应 用 开始 插入 不 同 片 键 的 文档 : 


{"age" : 12, "username" : "kevin"} 
{"age" : 12, "username" : "spencer"} 
{"age" : 12, "username" : "alberto"} 
{"age" : 12, "username" : "tad"} 





因此 ， 拥 有 不 同 的 片 键 值 是 非常 重要 的 。 其 他 重要 属性 会 在 下 一 章 讲 到 。 


如 果 在 mongos 试图 进行 拆 分 时 有 一 os 挂 了 ， 那 么 mongos 就 无 法 更 
新 元 数据 ， 如 图 14-4 所 示 。 在 进行 拆 分 时 ， a 
mongos 如 果 不 断 接收 到 块 的 写 请 求 ， ph 分 失败 的 循环 中 。 

配置 服务 器 不 可 用 于 拆 分 ， 拆 分 就 无 法 进行 ，mongos 全 
慢 mongos 和 当前 分 片 (每 次 收 到 的 写 请 求 都 会 重复 图 14-1 到 图 14-4 演示 的 过 程 )。 
这 种 mongos 不 断 重复 发 起 拆 分 请 求 却 无 法 进行 拆 分 的 过 程 ， 叫 做 拆 分 风暴 (split 
storm)。 防 止 拆 分 风暴 的 唯一 方法 是 尽 可 能 保证 配置 服务 器 的 可 用 和 健康 。 也 可 重 
启 mongos， 重 置 写 和 计数器， 这 样 它 就 不 再 处 于 拆 分 靖 值 点 了 。 

















mongos 


拆 分 
国 值 点 














图 14-4: mongos 选择 一 个 拆 分 点 ， 然 后 试图 将 这 些 信息 通知 给 配置 服务 器 ， 但 是 配置 服务 
器 不 可 达 。 因 此 ， 它 仍 位 于 这 个 块 的 拆 分 闪 值 点 。 随 后 的 任何 写 请 求 都 会 重复 上 面 
的 过 程 
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另 一 个 问题 是 ，mongos 可 能 不 会 意识 到 它 需 要 拆 分 一 个 较 大 的 块 。 并 没有 一 个 全 局 
的 计数 器 用 于 追踪 每 个 块 到 底 有 多 大 。 每 个 mongos 只 是 计算 其 收 到 的 写 请 求 是 否 
达到 了 特定 的 装 值 点 〈 如 图 14-5 所 示 )。 也 就 是 说 ， 如 果 mongos 进程 频繁 地 上 线 
和 和 宕 机 ， 那 么 mongos 在 再 次 宕 机 之 前 可 能 永远 无 法 收 到 足以 达到 拆 分 赋值 点 的 写 
请 求 ， 因 此 块 会 变 得 越 来 越 大 ， 如 图 14-6 所 示 。 





























国 值 点 





客户 端 











图 14-5: 随 着 mongos 进程 不 断 执 行 写 请 求 ， 它 们 的 计数 器 也 会 不 断 增 长 ， 直 至 拆 分 冰 值 点 
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图 14-6: 如 果 mongos 进程 不 断 重启 ， 它 们 的 计数 器 可 能 永远 也 不 会 到 达 阅 值 点 ， 因 此 块 的 
增长 不 存在 最 大 值 

防止 这 种 情况 发 生 的 第 一 种 方式 是 减少 mongos 进程 的 波动 。 尽 可 能 保证 mongos 进 

程 可 用 ， 而 不 是 在 需要 的 时 候 将 其 开启 ， 不 需要 的 时 候 又 将 其 关 掉 。 然 而 ， 实 际 部 

署 中 可 能 会 发 现 ， 维 持 不 需要 的 mongos 持续 运行 开销 过 大 。 这 时 可 选用 另 一 种 方 

式 : 使 块 的 大 小 比 实 际 预期 稍 小 些 ， 这 样 就 更 容易 达到 拆 分 靖 值 点 。 


可 在 启动 mongos 时 指定 - -nospLit 选项 ， 从 而 关闭 块 的 拆 分 。 


14.4 ”均衡 器 


均衡 器 (balancer) 负责 数据 的 迁移 。 它 会 周期 性 地 检查 分 片 间 是 否 存在 不 均衡 ， 如 
果 存 在 ， 则 会 开始 块 的 迁移 。 虽 然 均 衡器 通常 被 看 作 是 单一 实体 ， 但 每 个 mongos 
有 时 也 会 扮演 均衡 器 的 角色 。 
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每 隔 儿 秒 钟 ，mongos 就 会 尝试 变 身 为 均衡 器 。 如 果 没 有 其 他 可 用 的 均衡 器 ， 
mongos 就 会 对 整个 集群 加 锁 ， 以 防止 配置 服务 器 对 集群 进行 修改 ， 然 后 做 一 次 均 
衡 。 均 衡 并 不 会 影响 mongos 的 正常 路 由 操作 ， 所 以 使 用 mongos 的 客户 端 不 会 受到 


影响 。 


查看 config.locks 集合 ， 可 得 知 哪 一 个 mongos 是 均衡 器 : 


> db.locks.findOone({" id" : "balancer"}) 

{ 
"_id" : "balancer", 
"process" : "router-23:27017:1355763351:1804289383" ， 
"state" : 0, 


"ts" : ObjectId("50cf939c051fcdb8139fc72c"), 

"when" : ISODate("2012-12-17T21:50:20.0232")， 

"who" : "router-23:27017:1355763351:1804289383:Balancer:846930886", 
"why" : "doing balance round" 


} 


config.locks 集合 会 追踪 所 有 集群 范围 的 锁 。 id 为 baLancer 的 文档 就 是 均衡 器 。 
从 其 中 的 who 字段 可 得 知 当 前 或 曾经 作为 均衡 器 的 mongos 是 哪 一 个 : 在 本 例 中 是 
router-23:27017。state 字段 表明 均衡 器 是 否 正 在 运行 : 0 表示 处 于 非 活动 状态 ，2 
表示 正在 进行 均衡 (1 表示 mongos 正在 尝试 得 到 锁 ， 但 还 没有 得 到 ， 通 常 不 会 看 到 
状态 1) . 


mongos 成 为 均衡 器 后 ， 就 会 检查 每 个 集合 的 分 块 表 ， 从 而 查看 是 否 有 分 片 达 到 了 均 
衡 阔 值 (balancing threshold)。 不 均衡 的 表现 指 ， 一 个 分 片 明显 比 其 他 分 片 拥 有 更 
多 的 块 〈 精 确 的 靖 值 有 多 种 不 同情 况 : 集合 越 大 越 能 承受 不 均衡 状态 )。 如 果 检 测 到 
不 均衡 ， 均 衡器 就 会 开始 对 块 进行 再 分 布 ， 以 使 每 个 分 片 拥 有 数量 相当 的 块 。 如 果 
没有 集合 达到 均衡 国 值 ，mongos 就 不 再 充当 均衡 器 的 角色 了 。 


假如 有 一 些 集合 到 达 了 阅 值 ， 均 衡器 则 会 开始 做 块 迁移 。 它 会 从 负载 比较 大 的 分 片 
中 选择 一 个 块 ， 并 询问 该 分 片 是 否 需要 在 迁移 之 前 对 块 进行 拆 分 。 完 成 必要 的 拆 分 
后 ， 就 会 将 块 迁移 至 块 数量 较 少 的 机 器 上 。 


使 用 集群 的 应 用 程序 无 需 知 道 数 据 迁 移 : 在 数据 迁移 完成 之 前 ， 所 有 的 读 写 请 求 
都 会 被 路 由 到 旧 的 块 上 。 如 果 元 数据 更 新 完成 ， 那 么 所 有 试图 访问 旧 位 置 数据 的 
mongos 进程 都 会 得 到 一 个 错误 。 这 些 错 误 应 该 对 客户 端 不 可 见 : mongos 会 对 这 些 
袁 误 做 静默 处 理 ， 然 后 在 新 的 分 片上 重新 执行 之 前 的 操作 。 


























有 时 会 在 mongos 的 日 志 中 看 到 “unable to setShardVersion” 的 信息 ， 这 是 一 种 
很 常见 的 错误 。mongos 在 收 到 这 种 错误 时 ， 会 查看 配置 服务 器 数据 的 新 位 置 ， 并 更 
新 块 分 布 表 ， 然 后 重新 执行 之 前 的 请 求 。 如 果 成 功 从 新 的 位 置 得 到 了 数据 ， 则 会 将 
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数据 返回 给 客户 端 。 除 了 日 志 中 会 记录 一 条 错误 日 志 外 ， 整 个 过 程 好 像 什 么 错误 都 
没有 发 生 过 一 样 。 

如 果 由 于 配置 服务 器 不 可 用 导致 mongos 无 法 获取 块 的 新 位 置 ， 则 会 向 客户 端 返回 
避 误 。 所 以 ， 应 尽 可 能 保证 配置 服务 器 处 于 可 用 状态 。 
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第 15 章 


选择 片 键 





使 用 分 片 时 ， 最 重要 也 是 最 困难 的 任务 就 是 选择 数据 的 分 发 方式 。 需 要 理解 
MongoDB 的 数据 分 发 机 制 才能 够 做 出 明智 的 选择 。 本 章 旨 在 帮助 大 家 更 好 地 选择 
片 键 ， 内 容 包括 : 


。 如 何在 多 个 可 用 的 片 键 中 做 出 选择 ， 
。 不 同 使 用 场景 中 的 片 键 选 择 ， 

。 哪些 键 不 能 作为 片 键 ， 

。 自 定义 数据 分 发 方式 的 可 选 策略 ， 
。 如 何 手动 对 数据 分 片 。 


由 于 前 儿 章 已 经 讲述 了 分 片 的 基本 知识 ， 所 以 本 章 假设 大 家 对 分 片 已 有 基本 的 了 解 。 


15.1 检查 使 用 情况 


对 集合 进行 分 片 时 ， 要 选择 一 或 两 个 字段 用 于 拆 分 数据 。 这 个 键 (或 这 些 键 ) 就 叫 
做 片 键 。 一 旦 拥有 多 个 分 片 ， 再 修改 片 键 几乎 是 不 可 能 的 事情 ， 因 此 选择 合适 的 片 
键 (或 者 至 少 快速 注意 到 可 能 存在 的 问题 ) 是 非常 重要 的 。 


为 了 选择 合适 的 片 键 ， 需 了 解 自己 的 工作 量 以 及 片 键 是 如 何 对 应 用 程序 的 请 求 进 
行 分 发 的 。 这 个 问题 不 太 好 描述 ， 可 以 尝试 一 些小 例子 ， 或 者 是 在 备用 数据 集 上 
做 一 些 实验 。 本 节 含 有 大 量 图 表 和 解释 说 明 ， 但 最 好 的 方式 还 是 在 自己 的 数据 集 
上 试 一 试 。 
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对 集合 进行 分 片 前 ， 先 回答 以 下 问题 。 


。 计划 做 多 少 个 分 片 ? 拥有 3 个 分 片 的 集群 比 拥有 1000 个 分 片 的 集群 更 具有 灵活 
性 。 随 着 集群 变 得 越 来 越 大 ， 不 应 做 那些 需要 查询 所 有 分 片 的 查询 ， 因 此 几乎 所 
有 查询 都 须 包 含 片 键 。 

。 分 片 是 为 了 减少 读 写 延 迟 吗 ? 《延迟 指 某 个 操作 花费 的 时 间 ， 如 写 操作 花费 20 
毫秒 ， 但 我 们 需要 将 其 缩减 至 10 毫秒 ) 。 降 低 写 延迟 的 方式 通常 是 将 请 求 发 送 到 
地 理 位 置 更 近 的 服务 器 或 者 是 更 强大 的 机 器 上 。 

。 分 片 是 为 了 增加 读 写 吞吐 量 吗 ? (吞吐 量 指 集群 在 同一 时 间 能 够 处 理 的 请 求 数量 : 
集群 能 够 在 20 毫秒 内 处 理 1000 次 写 请 求 ， 但 我 们 需要 甚 能够 在 20 毫秒 内 处 理 
5000 次 写 请 求 )。 增 加 吞吐 量 通常 需要 提高 并 行 性 ， 并 确保 请 求 被 均衡 地 分 发 到 
各 集群 成 员 上 。 

。 分 片 是 为 了 增加 系统 资源 吗 ? (比如 ， 每 GB 数据 提供 MongoDB 更 多 的 可 用 
RAM) 。 如 果 是 这 样 ， 可 能 会 希望 尽量 保持 工作 集 较 小 。 


根据 这 些 问题 来 对 不 同 片 键 进行 评估 ， 并 判断 所 选 片 键 是 否 适用 于 自己 的 情况 。 这 
样 做 能 够 提供 所 需 的 目标 查询 吗 ? 能 够 按 所 需 方式 提高 系统 吞吐 量 或 者 减少 读 写 延 
迟 吗 ? 如 需 保 持 工 作 集 的 小 巧 ， 这 样 做 可 以 达到 要 求 吗 ? 


15.2 ”数据 分 发 

拆 分 数据 最 常用 的 数据 分 发 方式 有 三 种 : 升序 片 键 (ascending key)、 随 机 分 发 的 片 
键 和 基于 位 置 (location-based) 的 片 键 。 也 有 一 些 其 他 类 型 的 键 可 供 使 用 ， 但 大 部 
分 都 属于 这 三 种 类 别 。 以 下 几 节 会 分 别 介绍 这 三 种 方式 。 






























































15.2.1 升序 片 键 

升序 片 键 通常 有 点 类 似 于 "date" 字段 或 者 是 0bjectId， 是 一 种 会 随 着 时 间 稳 定 
增长 的 字段 。 自 增长 的 主键 是 升序 键 的 另 一 个 例子 ， 但 它 很 少 出 现在 MongoDB 中 
， 除 非 要 从 其 他 数据 库 中 导入 数据 。 


假设 我 们 依据 升序 键 做 分 片 ， 如 使 用 0bjectId 的 集合 中 的 ”id" 键 。 如 果 基 于 
"id" 分 片 ， 那 么 集合 就 会 依据 不 同 的 "_id" 范围 被 拆 分 为 多 个 块 ， 如 图 15-1 所 示 。 
这 些 块 会 分 发 在 我 们 这 个 拥有 分 片 的 集群 中 (比如 说 3 个 分 片 )， 如 图 15-2 所 示 。 


假设 要 创建 一 个 新 文档 ， 它 会 位 于 哪个 块 呢 ? 答案 是 范围 为 0bjectId("5112fae 
0b4a4b396ff9dgee5") 到 $maxKey 的 块 。 这 个 块 叫做 最 大 块 (max chunk) ， 因 为 
该 块 包 含有 $maxKey。 
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$minKey -> Objectld("5112fa61b4a4b396ff960262 ) 


Objectld("5112fa61b4a4b396ff960262") -> 
Objectld("5112fa9bb4a4b396ff96671b") 


Objectld("5112fa9bb4a4b396ff96671b") -> 
Objectld("5112faaOb4a4b396ff9732db") 


Objectld( 5112faa0b4a4b396ff9732db ) -> 
Objectld("5112fabbb4a4b396ff97fb40") 


Objectld("5112fabbb4a4b396ff97fb40") -> 
Objectld("5112facOb4a4b396ff98c6f8") 


Objectld("5112fac0b4a4b396ff98c6f8") -> 
Objectld("5112facSsb4a4b396ff998b59") 


Objectld("5112facSb4a4b396ff998b59") -> 
Objectld("5112facab4a4b396ff9a56c5") 


Objectld("5112facab4a4b396ff9a56c5") -> 
Objectld("5112facfb4a4b396ff9b1b55") 


Objectld("5112facfb4a4b396ff9b1b55") -> 
Objectld("5112fad4b4a4b396ff9bd69b") 


Objectld("5112fad4b4a4b396ff9bd69b") -> 
Objectld("5112fae0b4a4b396ff9d0ee5") 


Objectld("5112fae0b4a4b396ff9d0ee5") -> $maxKey 











图 15-1: 集合 依据 不 同 的 0bjectId 范围 被 拆 分 ， 每 个 范围 都 是 一 个 块 


如 果 再 插入 一 个 文档 ， 它 也 会 出 现在 最 大 块 中 。 事 实 上 ， 接 下 来 的 每 个 新 文档 都 会 
被 插入 到 最 大 块 中 ! 每 一 个 插入 文档 的 "id" 字段 值 都 会 比 之 前 文档 的 "_id" 字段 
值 更 接近 正 无 穷 (因为 0bjectId 一 直 在 增长 )， 所 以 这 些 文档 都 会 插入 到 最 大 块 中 。 


这 样 会 带 来 一 些 有 趣 的 属性 ， 通 常 都 是 些 不 良 属性 。 首 先 ， 所 有 的 写 请 求 都 会 被 路 
由 到 一 个 分 片 〈 本 例 中 是 shard0002) 中 。 该 块 是 唯一 一 个 不 断 增 长 和 拆 分 的 块 ， 因 
为 它 是 唯一 一 个 能 够 接收 到 插入 请 求 的 块 。 随 着 新 数据 的 不 断 插入 ， 该 最 大 块 会 不 
断 拆 分 出 新 的 小 块 ， 如 图 15-3 所 示 。 

这 种 模式 经 常会 导致 MongoDB 的 数据 均衡 处 理 变 得 更 为 困难 ， 因 为 所 有 的 新 块 都 
是 由 同一 分 片 创建 的 。 因 此 ，MongoDB 必须 不 断 将 一 些 块 移 至 其 他 分 片 ， 而 不 能 
像 在 一 个 比较 均衡 分 发 的 系统 中 那样 ， 只 需 纠 正 那 些 比 较 小 的 不 均衡 就 好 了 。 
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分 片 0000 


Objectld("5112fa9bb4a4b396ff96671b") -> 
Objectld("5112faa0b4a4b396ff9732db") 


Objectld("5112faa0b4a4b396ff9732db") -> 


Objectld("5112fabbb4a4b396ff97fb40") 


Objectld("5112fabbb4a4b396ff97fb40") -> 
Objectld("5112fac0b4a4b396ff98c6f8") 





分 片 0001 


$minKey -> Objectld("5112fa61b4a4b396ff960262") 


Objectld("5112fa61b4a4b396ff960262") -> 
Objectld("5112fa9bb4a4b396ff96671b") 


Objectld("5112facob4a4b396ff98c6f8") -> 
Objectld("5112facSsb4a4b396ff998b59") 


Objectld("5112fac5b4a4b396ff998b59") -> 
Objectld("5112facab4a4b396ff9a56c5") 





分 片 0002 


Objectld("5112facab4a4b396ff9a56c5") -> 
Objectld("5112facfb4a4b396ff9b1b55") 


Objectld("5112facfb4a4b396ff9b1b55") -> 
Objectld("5112fad4b4a4b396ff9bd69b") 


Objectld("5112fad4b4a4b396ff9bd69b") -> 
Objectld("5112fae0b4a4b396ff9d0ee5 ) 


Objectld("5112fae0b4a4b396ff9d0ee5") -> 9maxkey 











15-2: 块 在 分 片 中 是 以 随机 顺序 分 发 的 





Objectld("5112fad4b4a4b396ff9bd69b") -> Objectld("5112fad4b4a4b396ff9bd69b") -> 
0bjectld("5112fae0b4a4b396ff9d0ee5 ) Objectld("5112faeOb4a4b396ffod0ee5") 


Objectld("5112fae0b4a4b396ff9d0ee5") -> 
Objectld("5112ff8fb4a4b396ff9dc1c4") 


Objectld("5112ff8fb4a4b396ff9dc1c4") -> 
Objectld("5112ff96b4a4b396ff9ec66c") 


Objectld("5112faeOb4a4b396ffodOee5") -> $maxKey 


Objectld("5112ff96b4a4b396ff9ec66c") -> SmaxKey 














15-3; 最 大 块 不 断 增长 ， 不 断 被 拆 分 为 多 个 块 
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15.2.2 ”随机 分 发 的 片 键 

另 一 种 方式 是 随机 分 发 的 片 键 。 随 机 分 发 的 键 可 以 是 用 户 名 、 邮 件 地 址 、UDID 
(Unique Device IDentifier， 唯 一 设备 标识 符 )、MD5 散 列 值 ， 或 者 是 数据 集中 其 他 
一 些 没 有 规律 的 健 。 








假如 片 键 是 0 和 1 之 间 的 随机 数 ， 各 分 片上 随机 分 发 的 块 如 图 15-4 所 示 。 








分 片 0000 


$minkey -> 
0.07152752857759748 
0.5050852404345105 -> 0.5909494812833331 





0.5909494812833331 -> 0.6969766499990353 


分 片 0001 


0.6969766499990353 -> 0.8400606470845913 
0.8400606470845913 -> 0.9190519609736775 
0.9190519609736775 -> 0.9999498302686232 
0.9999498302686232 -> 
SmaxKey 
分 片 0002 
0.07152752857759748 -> 0.15425320872988635 
0.15425320872988635 -> 0.25743183243034107 





0.25743183243034107 -> 0.3640577812240344 
0.3640577812240344 -> 0.5050852404345105 


图 15-4: 如 前 一 节 所 述 ， 块 随机 地 分 发 在 集群 中 
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随 着 更 多 的 数据 被 插入 ， 数 据 的 随机 性 意味 着 ， 新 插入 的 数据 会 比较 均衡 地 分 发 在 
不 同 的 块 中 。 可 以 试 着 插入 10 000 个 文档 ， 来 验证 一 下 会 发 生 什么 : 





> var servers = {} 
> var findShard = function (id) { 
var explain = db.random.find({ id:id}).explain(); 
for (var i in explain.shards) { 
var server = explain.shards[i]l][0]; 
if (server.n == 1) { 
if (server.server in servers) { 
servers[server.server]++; 
} else { 
servers[server,.server] = 1; 
} 
} 
， } 
i 
> for (var i = 0; i < 10000; i++) { 
var id = 0bjectId() ; 
db.random.insert({" id" : id, "x" : Math.random()}); 
findShard(id); 
.} 


> servers 

{ 
"spock:30001" : 2942, 
"spock:30002" : 4332, 
"spock:30000" : 2726 

} 


由 于 写 入 数据 是 随机 分 发 的 ， 各 分 片 增长 的 速度 应 大 致 相同 ， 这 就 减少 了 需要 进行 
迁移 的 次 数 。 

使 用 随机 分 发 片 键 的 唯一 商 端 在 于 ，MongoDB 在 随机 访问 超出 RAM 大 小 的 数据 时 
效率 不 高 。 然 而 ， 如 果 拥 有 足够 多 的 RAM 或 者 是 并 不 介意 系统 性 能 的 话 ， 使 用 随 
机 片 键 在 集群 上 分 配 负载 是 非常 好 的 。 


























15.2.3 “基于 位 置 的 片 键 

基于 位 置 的 片 键 可 以 是 用 户 的 IP、 经 纬度 ， 或 者 是 地 址 。 位 置 片 键 不 必 与 实际 的 物 
理 位 置 字段 相关 : 这 里 的 “位 置 ” 比 较 抽 象 ， 数 据 会 依据 这 个 “位 置 ”进行 分 组 。 
无 论 如 何 ， 所 有 与 该 键 值 比较 接近 的 文档 都 会 被 保存 在 同一 范围 的 块 中 。 这 样 可 以 
比较 方便 地 将 数据 与 相应 的 用 户 ， 以 及 相关 联 的 数据 保存 在 一 起 。 


例如 ,假设 我 们 有 一 个 集合 的 文档 是 按照 IP 地 址 进行 分 片 的 。 文 档 会 依据 卫 地 址 
被 分 成 不 同 的 块 ， 并 随机 分 布 在 集群 中 ， 如 图 15-5 所 示 。 
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分 片 0000 分 片 0001 分 片 0002 


"072.034.009.012" -> 
"090.118.120.031" 


"002.075.101.096" -> 
"022.089.076.022" 


"090.118.120.031" -> 
"127.126.116.125" 


"022.089.076.022" -> 
"038.041.058.074" 


"038.041.058.074" -> 
"055.081.104.118" 


"127.126.116.125" -> 
SmaxKey 














图 15-5: IP 地 址 集合 中 的 块 分 发 情况 


如 果 和 希望 特定 范围 的 块 出 现在 特定 的 分 片 中 ， 可 以 为 分 片 添加 tag， 然 后 为 块 指定 
相应 的 tag。 在 本 例 中 ， 假 如 我 们 希望 特定 范围 的 卫 段 出 现在 特定 的 分 片 中 ， 比 如 
让 “56.*.*.*”( 美 国 邮 政 署 的 IP 段 ) 出 现在 shard0000， 让 “17.*.*.*”( 芋 果 公 司 
的 PP 段 ) 出 现在 shard0000 或 shard0002 上 。 我 们 并 不 关心 其 他 的 IP 出 现在 什么 位 
置 。 可 通过 为 分 片 指定 tag， 请 求 均衡 器 实现 该 指令 : 





























> sh.addShardTag("shard0000", "USPS") 
> sh.addShardTag("shard0000", "Apple") 
> sh.addShardTag("shard0002", "Apple") 


然后 ， 创 建 下 列 规则 : 


> sh.addTagRange("test.ips", {"ip"” : "056.000.000.000"}, 
... {"ip" : "057.000.000.000"}, "USPS") 


这 样 就 会 将 所 有 了 全 x 地 址 大 于 等 于 56.0.0.0 和 小 于 57.0.0.0 的 文档 分 发 到 标签 为 
“USPS” 的 分 片上 。 接 下 来 ， 再 为 苹果 公司 的 IP 段 添 加 一 条 规则 : 


> sh.addTagRange("test.ips", {"ip"” : "017.000.000.000"}, 
... {"ip"” : "018.000.000.000"}, "Apple") 


























均衡 器 在 移动 块 时 ， 会 试图 将 这 些 范围 的 块 移动 到 这 些 分 片上 。 注 意 ， 该 过 程 不 会 
立即 生效 。 没 有 被 打 过 标签 的 块 仍 会 正常 移动 。 均 衡器 会 继续 尝试 将 块 均衡 地 分 发 
在 不 同 的 分 片上 。 


15.3 片 键 策略 


本 市 我 们 将 学 习 针对 不 同类 型 应 用 程序 的 儿 种 片 键 选项 。 
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15.3.1 散 列 片 键 


如 果 追 求 的 是 数据 加 载 速度 的 极致 ， 那 么 散 列 片 键 (Hashed Shard Key) 是 最 佳 选 
择 。 散 列 片 键 可 使 其 他 任何 键 随机 分 发 ， 因 此 ， 如 果 打 算 在 大 量 查询 中 使 用 升序 键 ， 
但 同时 又 希望 写 入 数据 随机 分 发 的 话 ， 散 列 片 键 会 是 个 非常 好 的 选择 。 


炊 端 是 无 法 使 用 散 列 片 键 做 指定 目标 的 范围 查询 。 如 无 需 做 范围 查询 ， 那 么 散 列 片 
键 就 非常 合适 


创建 一 个 散 列 片 键 ， 首 先 要 创建 散 列 索引 : 














> db.users.ensureIndex({"username" "hashed"}) 


然后 对 集合 分 片 : 


> sh.shardCollection("app.users", "hashed"}) 


{ "collectionsharded" "app.users", 


{"username" 
"ok" : 1} 


四 
不 


它 假设 我 们 希望 对 数据 块 进行 均衡 分 发 ， 所 以 会 立即 创建 一 些 空 
分 发 在 集群 中 。 例 如 ， 在 创建 散 列 片 键 之 前 ， 集 合 如 下 : 





企 一 个 不 存在 的 集合 上 创建 散 列 片 键 ，shardCotLLection 的 行为 会 比较 有 趣 : 
的 块 ， 并 将 这 些 块 


>x 洁 


0 











> sh.status() 
- Sharding Status --- 
sharding version: { " 
shards: 


id" : 1, "version" : 3 } 


"id" 
"id 
"id 


"Shard0000"， 
"Shard0001"， 
"shard0002", 


"host" 
"host" 
"host" 
database 
"iid" 
"id 


{ 
{ 
5 
se 
"admin", 
{ "test", 


"partitioned" 


每 个 分 片 


命令 返 匠 


回 后 ， 





shardCoLLection 如 


"partitioned" 


"localhost:30000" } 
"localhost:30001" } 
"localhost:30002" } 


: false, 
: true, 


上 立即 出 现 了 两 个 块 ， 并 均衡 地 分 发 在 


"config" } 
"shard0001" } 


"primary" 
"primary" 


整个 集群 中 : 


> sh.status() 
- Sharding Status --- 
sharding version: { " 
shards: 
{ "_id" 
{ "_id" 
{ "_id" 
databases: 
{ "_id" "admin", 
{ "id" : "test", 
test. foo 
shard key: { 


id" : 1, "version" : 3 } 
"host" 
"host" 


"host" 


"shard0000"， 
"shard0001", 
"shard0002", 


"LocaLhost:30000" } 
"LocaLhost:30001" } 
"localhost:30002" } 


"conNg" } 
"shard0001" } 


: false, 
: true, 


"partitioned" 
"partitioned" 


"primary" 
"primary" 


"username" "hashed" } 





chunks: 


shard0000 2 
shard0001 2 
shard0002 2 
{ "username" : { "$MinKey" : true } } 


-->> { "username" : NumberLong("-6148914691236517204") } 


on 


: Shard0000 { "t" : 3000, "i" : 2 3} 


{ "username" : NumberLong("-6148914691236517204") } 
-->> { "username" : NumberLong("-3074457345618258602") } 


on : 


shard0000 { "t" : 3000, "i" : 3 1} 


{ "username" : NumberLong("-3074457345618258602") } 
-->> { "username" : NumberLong(0) } 


on : 


Shard0001 { "t" : 3000, "i" : 4 } 


{ "username" : NumberLong(0) } 
-->> { "username" : NumberLong("3074457345618258602") } 


on : 


Shard0001 { "t" : 3000, "i" :5 } 


{ "username" : NumberLong("3074457345618258602") } 
-->> { "username" : NumberLong("6148914691236517204") } 


on : shard0002 { "t" : 3000, "i" : 6 } 

{ "username" : NumberLong("6148914691236517204") } 
-->> { "username" : { "$MaxKey" : true } } 
on : shard0002 { "t" : 3000, "i" : 7 } 


注意 ， 现 在 集合 中 还 没有 文档 ， 但 当 插 入 新 文档 时 ， 写 请 求 一 开始 就 会 被 均衡 地 分 
常 需要 等 待 块 的 增长 与 拆 分 ， 直 到 块 移动 时 再 将 写 请 求 分 发 到 


发 到 不 同 的 分 片上 。 通 











其 他 分 片上 。 使 用 这 种 自动 机 制 ， 数 据 块 从 一 开始 就 会 均衡 地 分 发 在 所 有 分 片上 。 


使 用 散 列 片 键 存在 着 一 定 的 局 限 性 。 首 先 ， 不 能 使 用 unique 选项 。 其 次 ， 与 其 他 
片 键 一 样 ， 不 能 使 用 数组 字段 。 最 后 注意 ， 浮 点 型 的 值 会 先 被 取 整 ， 然 后 才 会 进行 
散 列 ， 所 以 1 和 1.999999 会 得 到 相同 的 散 列 值 。 


15.3.2 GridFS 的 散 列 片 键 
在 对 GridFS 集合 做 分 片 之 前 ， 确 保 已 理解 了 GridFS 的 数据 存储 机 制 (第 


细 介 绍 )。 
在 接 下 来 的 介绍 中 ,“ 





文件 拆 分 为 块 ， 而 分 片 也 会 将 集合 拆 分 为 块 。 因 
块 ”表示 这 两 种 块 。 


GridFS 集合 通常 来 说 非常 适合 做 分 片 ， 因 为 它们 包含 大 量 的 文件 数据 。 


“GridFS 块 ”和 “分 片 




















块 ”(chunks) 这 一 术语 会 存在 多 重 含义 ， 











fs.chunks 上 自动 创建 的 索引 并 不 是 特别 适合 作为 分 片 键 : {"_id"” : 1 


升序 键 ，{"files id 
是 一 个 升序 键 。 














6 章 有 详 


因为 GridFS 会 将 
此 ， 在 本 章 后 续 内 容 中 ， 分 别 以 


日 是， 在 
4 





} 是 一 





:1，"n" : 1}+ 使 用 了 fs.fites 的 id 字段 ， 


因此 它 也 


但 是 ， 如 果 在 "files_id" 字段 上 创建 散 列 索引 ， 则 每 个 文件 都 会 被 随机 分 发 到 集 
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群 中 。 但 是 一 个 文件 只 能 被 包含 在 一 个 单一 的 块 中 。 这 是 非常 好 的 ， 因 为 ， 写 请 求 
被 均衡 地 分 发 到 所 有 分 片上 ， 而 读 取 文件 数据 时 只 需 查 询 一 个 单一 的 分 片 即 可 。 

为 实现 这 种 策略 ， 必 须 在 {"files id" : "hashed"} 上 创建 新 的 索引 (在 本 书 编 
写 之 时 ，mongos 还 不 支持 使 用 复合 索引 的 子 集 作为 片 键 )。 然 后 依据 这 个 字段 对 集 


合 分 片 : 








> db.fs.chunks.ensureIndex({"files id" : "hashed"}) 
> sh.shardCollection("test.fs.chunks", {"files id" : "hashed"}) 
{ "collectionsharded" : "test.fs.chunks", "ok" : 1 } 


另外 提醒 一 下 ， 由 于 fs.files 集合 比 fs.chunks 集合 小 得 多 ，fs.files 集合 可 能 需要 做 
分 片 ， 也 可 能 不 需要 。 可 以 对 该 集合 做 分 片 ， 但 通常 没什么 必要 。 


15.3.3 ”流水 策略 

如 果 有 一 些 服务 器 比 其 他 服务 器 更 强大 ， 我 们 可 能 会 希望 让 这 些 强 大 的 服务 器 处 理 
更 多 的 负载 。 比 如 说 ， 假 如 有 一 个 使 用 SSD 的 分 片 能 够 处 理 10 倍 于 其 他 机 器 (使 
用 转 式 磁盘 ) 的 负载 。 幸 运 的 是 ， 我 们 有 10 个 其 他 分 片 。 可 强制 将 所 有 新 数据 插入 
到 SSD， 然 后 让 均衡 器 将 旧 的 块 移动 到 其 他 分 片上 。 这 样 能 够 提供 比 转 式 磁盘 更 低 
的 延迟 。 


为 实现 这 种 策略 ， 需 将 最 大 范围 的 块 分 布 在 SSD 上。 首先， 为 SSD 指定 一 个 标签 : 




















> sh.addShardTag("shard-name", "ssd") 


将 升序 键 的 当前 值 一 直到 正 无 穷 范 围 的 块 指定 分 布 在 SSD 分 片上 ， 以 便 后 续 的 写 入 
请 求 均 被 分 发 到 SSD 分 片上 : 


> sh.addTagRange("dbName.collName", {" id" : ObjectId()}, 
... {"_id" : MaxKey}, "ssd") 


现在 ， 所 有 的 插入 请 求 均 会 被 路 由 到 这 个 块 上 ， 这 个 块 始终 位 于 标签 为 ssd 的 分 片上 。 


但 是 ， 除 非 修改 标签 范围 ， 否 则 从 升序 键 的 当前 值 一 直到 正 无 穷 的 这 个 范围 则 被 固 
定 在 了 这 个 分 片上 。 可 创建 一 个 定时 任务 每 天 更 新 一 次 标签 范围 ， 如 下 : 














> use config 

> var tag = db.tags.findOne({"ns" : "dbName.collName", 
. "max" : {"shardKey" : MaxKey}}) 

> tag.min.shardKey = 0bjectId() 

> db.tags.savel(tag) 


这 样 ， 前 一 天 的 块 就 可 以 被 移动 到 其 他 分 片上 了 。 
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此 策略 的 另 一 整 端 是 需 做 一 些 修 改 才 能 进行 扩展 。 如 果 写 请 求 超出 了 SSD 的 处 理 能 
力 ， 想 要 将 负载 均衡 地 分 布 到 当前 服务 器 和 另 一 台 服 务 器 并 不 简单 。 


如 果 没 有 高 性 能 服务 器 来 处 理 插 入 流水 ， 或 者 是 没有 使 用 标签 ， 那 么 不 要 将 升序 键 
用 作 片 键 。 否 则 ， 所 有 写 请 求 都 会 被 路 由 到 同一 分 片上 。 


15.3.4 多 热点 

单个 mongod 服务 器 在 处 理 升序 写 请 求 时 是 最 有 效 的 。 这 种 技术 与 分 片 相 冲 突 ， 写 
请 求 分 布 在 集群 中 时 ,分 片 是 最 高 效 的 。 这 种 技术 会 创建 多 个 热点 (最 好 在 每 个 分 
片 都 创建 儿 个 热点 ) ， 写 请 求 于 是 会 均衡 地 分 布 在 集群 内 ， 而 在 单个 分 片上 则 是 以 升 
序 分 布 的 。 


为 实现 这 种 方式 ， 需 使 用 复合 片 键 (compound shard key)。 复 合 片 键 中 的 第 一 个 值 
只 是 比较 粗略 的 随机 值 ， 势 也 比较 低 。 可 将 片 键 第 一 部 分 中 的 每 个 值 想 象 为 一 个 块 ， 
如 图 15-6 所 示 。 随 着 插入 数据 的 增多 ， 这 种 现象 也 会 随 之 出 现 ， 虽 然 可 能 不 会 被 分 
离 得 这 么 整洁 (注意 图 中 的 $minKey 行 )。 但 是 ， 如 果 插 入 足够 多 的 数据 ， 最 终 会 
发 现 基本 上 每 个 随机 值 都 位 于 一 个 块 中 。 如 果 继 续 插 入 数据 ， 最 终 同一 个 随机 值 则 
会 对 应 有 多 个 块 ， 这 时 候 就 轮 到 片 键 中 的 第 二 部 分 出 马 了 。 






































{"'state" : "KS", "_id":; $minKey} -> 
{"state" : "KY", "_id" : SminKey} 


{"state" : "KY", "_id" : $minKey} -> 
{"state" : "LA", id $minKey} 


{"state" : "LA", "_id": $minKey} -> 
fstate :MA "_id" : $minKey} 


Tstate : "MA®, id : $minKey} -> 
frstate" : "MD", "_id" : $minKey} 


frstate : "MD", "_id" : $minKey} -> 
fstate" : "ME", "_id" : $minKey} 














图 15-6: 块 的 一 个 子 集 。 每 个 块 都 包含 一 个 状态 和 一 个 _id 范围 
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片 键 的 第 二 部 分 是 个 升序 键 。 也 就 是 说 ， 在 一 个 块 内 ， 值 总 是 增加 的 ， 如 图 15-7 中 
的 文档 样 例 所 示 。 因 此 ， 如 果 每 个 分 片 拥有 一 个 块 ， 会 是 非常 完美 的 配置 : 写 请 求 
在 每 个 分 片 内 都 是 升序 的 ， 如 图 15-8 所 示 。 当 然 ， 在 多 个 分 片 中 拥有 多 个 块 ， 每 个 
块 拥有 多 个 热点 ， 这 种 方式 并 不 易于 扩展 : 添加 一 个 新 的 分 片 不 会 获得 任何 写 请 求 ， 
因为 这 个 分 片上 没有 热点 块 。 因 此 ， 我 们 会 希望 在 每 个 分 片上 拥有 几 个 热点 块 ( 以 
提供 增长 空间 )。 然 后 ， 热 点 块 不 能 过 多 。 少 数 的 热点 块 能 够 保持 升序 写 请 求 的 效 
率 。 但 是 ， 在 一 个 分 片上 拥有 1000 个 “热点 ”的 话 ， 甚 实 写 请 求 就 相当 于 是 完全 随 
机 的 了 。 















































{f state : MA， id : Objectld("511bfb9e17d55c62b2371f1d")} 


fstate : NY， id :Objectld( 511bfb9e17d55c62b2371fle ) } 


fstate :CA id : Objectld("511bfb9e17d55c62b2371f1f")} 


{"state" : "NY", "_id" : Objectld("511bfb9e17d55c62b2371f20")} 


{"state" :MA id : Objectld("511bfb9e17d55c62b2371f21")} 


{"state" : MA， id : Objectld("511bfb9e17d55c62b2371f22")} 


{"state" : "NY", "_id" : Objectld("S511bfb9e17d55c62b2371f23")} 


{"state" : "CA" "_id" : Objectld("511bfb9e17d55c62b2371f24") } 


{"state" :CA ”id : Objectld("511bfb9e17d55c62b2371f25")} 














15-7: 插入 文档 的 一 个 样 例 。 注 意 ， 所 有 的 _id 都 是 升序 的 








frstate" : "CA "_id": $minKey} -> 
{"state" : "CO" "_id": $minKey} 


{ State : "CA" "_id" : Objectld("511bfb9e17d55c62b2371f1f")} 


{"state" : "CA","_id" : Objectld("511bfb9e17d55c62b2371f24")} 


fstate :CA id : Objectld("511bfb9e17d55c62b2371f25")} 


{"'state": "MA", "_id": $minKey} -> 
fstate : "ME", "_id" : $minKey} 


{"state" : MA， id : Objectld("511bfb9e17d55c62b2371f1d")} 


{"state" : MA， id : Objectld("511bfb9e17d55c62b2371f21")} 


{"state" : "MA", ”id : Objectld("511bfb9e17d55c62b2371f22")} 


{"state" : "NY", "_id": $minKey} -> 
{"state" : "OH", "_id" : $minKey} 


{"state": "NY", "_id" :Objectld("511bfb9e17d55c62b2371fle") } 


{ "state" : "NY", "_id" : Objectld("511bfb9e17d55c62b2371f20")} 


{"state" : "NY", id : Objectld("511bfb9e17d55c62b2371f23")} 














图 15-8: 插入 的 文档 被 拆 分 成 了 多 个 块 。 注 意 ， 在 每 个 块 内 ，_id 都 是 升序 的 


可 将 这 种 配置 想象 成 每 个 块 都 是 一 个 升序 文档 的 栈 。 每 个 分 片上 拥有 多 个 栈 ， 每 个 
栈 都 是 不 断 增 长 的 ， 直 到 块 被 拆 分 。 一 旦 块 被 拆 分 ， 只 有 一 个 新 块 会 成 为 热点 块 : 
其 他 块 实 际 上 会 处 于 一 种 “ 死 掉 ”的 状态 ， 且 不 会 再 继续 增长 。 如 果 这 些 栈 均衡 地 
分 发 在 分 片 中 ， 那 么 写 请 求 也 会 被 均衡 地 分 发 到 不 同 的 分 片上 。 
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15.4 片 键 规则 和 指导 方针 
在 选择 片 键 前 ， 应 注意 一 些 实际 限制 。 
由 于 与 创建 索引 键 的 概念 类似 ， 因 此 决定 使 用 哪个 键 作 分 片 以 及 创建 片 刍 的 方法 都 


与 之 非常 相似 。 事 实 上 ， 我 们 使 用 的 片 键 可 能 常常 就 是 使 用 最 频 葡 的 索引 (或 者 是 
索引 的 变种 )。 


15.4.1 片 键 限制 
片 键 不 可 以 是 数组 。 在 拥有 数组 值 的 键 上 执行 sh .shardCollection()， 则 命令 不 
会 生效 。 向 片 键 插入 数组 值 也 是 不 被 允许 的 。 


文档 一 旦 插入 ， 其 片 键 值 就 无 法 修改 了 。 要 修改 文档 的 片 键 值 ， 必 须 先 删除 文档 ， 
修改 片 键 的 值 ， 然 后 重新 插入 。 因 此 ， 应 选择 不 会 被 改变 的 字段 ， 或 者 是 很 少 发 生 
改变 的 字段 。 


大 多 特殊 类 型 的 索引 都 不 能 被 用 作 片 键 。 特 别 是 不 能 在 地 理 空间 索引 上 进行 分 片 。 
如 前 所 述 ， 使 用 散 列 索 引 作为 片 键 是 可 以 的 。 


15.4.2” 片 键 的 热 

不 管 片 键 是 跳跃 增长 还 是 稳定 增长 ， 选 择 一 个 值 会 发 生变 化 的 键 是 非常 重要 的 。 
与 索引 一 样 ， 分 片 在 势 比较 高 的 字段 上 性 能 更 佳 。 例 如 ，"LogLevetL'" 键 只 拥有 
"DEBUG"、"WARN" 和 "ERROR" 这 几 个 值 。 如 用 其 作为 片 键 ， 则 MongoDB 最 多 只 
能 将 数据 分 为 三 个 块 (因为 片 键 只 拥有 三 个 不 同 的 值 ) 。 如 果 键 拥有 的 值 比较 少 ， 而 
且 确 实 希 望 将 这 个 键 用 作 片 键 ， 则 可 使 用 该 键 与 另 一 个 拥有 多 样 值 的 键 创 建 一 个 复 
合 片 键 ， 比 如 "LogLeveL" 和 "timestamp"。 注 意 ， 复 合 片 键 的 势 比较 高 。 


15.5 控制 数据 分 发 

有 时候， 自动 数据 分 发 无 法 满足 需求 。 前 面 已 经 学 习 过 了 有 关 选 择 片 键 以 及 让 
MongoDB 自动 处 理事 务 的 内 容 ， 接 下 来 我 们 将 在 本 节 学 习 到 更 多 相关 内 容 。 

随 着 集群 变 得 越 来 越 大 或 者 越 来 越 繁忙 ， 这 些 解决 方案 可 能 会 变 得 不 是 那么 有 效 。 
但 是 ， 对 于 比较 小 的 集群 ， 也 许 我 们 会 希望 拥有 更 多 的 控制 权 。 


15.5.1 对 多 个 数据 库 和 集合 使 用 一 个 集群 
MongoDB 将 集合 均衡 地 分 发 到 集群 中 的 分 片上 ， 如 果 保存 的 数据 比较 均匀 ， 则 访 
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方法 非常 有 效 。 然 而 ， 如 果 有 一 个 日 志 集 合 ， 该 集合 的 数据 不 如 其 他 集合 的 数据 有 
“价值 ”， 我 们 可 能 不 希望 其 占用 昂贵 的 服务 器 。 或 者 ， 如 果 拥 有 一 个 强大 的 分 片 ， 
我 们 可 能 只 希望 将 其 用 在 实时 集合 上 ， 而 不 允许 其 他 集合 使 用 它 。 这 些 情况 下 ， 可 
建立 独立 的 集群 ， 也 可 将 数据 的 保存 位 置 明确 指定 给 MongoDB 。 











为 实现 这 种 模式 ， 在 shell 中 运行 sh .addShardTag() 辅助 函数 : 


> sh.addShardTag("shard0000", "high") 
> // shard0001 - no tag 
> // shard0002 - no tag 
> // shard0003 - no tag 
> sh.addShardTag("shard0004", "Low") 
> sh.addShardTag("shard0005", "Low") 


然后 可 以 将 不 同 的 集合 指定 到 不 同 的 分 片 。 例 如 ， 对 于 实时 集合 : 


> sh.addTagRange("super,.important", {"shardKey" : MinKey}, 

... {"shardKey" : MaxKey}, "high") 
上 面 这 条 命令 的 意思 是 ,“ 将 该 集合 内 片 键 的 值 在 负 无 穷 到 正 无 穷 之 间 的 数据 ， 保 存 
到 标签 为 high 的 分 片上 ”。 也 就 是 说 ,该 重要 集合 的 所 有 数据 都 不 会 被 保存 在 其 他 
服务 器 上 。 注 意 ， 这 并 不 会 影响 其 他 集合 的 分 发 方式 : 其 他 集合 仍 会 被 均衡 地 分 发 
在 该 分 片 和 其 他 分 片上 。 


同样 地 ， 也 可 以 将 日 志 集 合 指定 到 比较 便宜 的 服务 器 上 : 











> sh.addTagRange("some.logs", {"shardKey" : MinKey}, 
... {"shardKey" : MaxKey}, "low") 


现在 ,日 志和 集合 会 被 均衡 地 分 发 在 shard0004 和 shard0005 上 。 


为 集合 指定 一 个 标签 范围 的 指令 并 不 会 立即 生效 。 它 只 是 一 个 对 于 均衡 器 的 指 
令 ， 运行 指令 可 将 集合 移动 到 这 些 目 标 分 片上 。 因 此 ， 如 果 整 个 日 志 集 合 都 位 于 
shard0002 或 者 是 均衡 地 分 发 在 所 有 分 片上 ， 那 么 需要 消耗 一 定 的 时 间 ， 日 志 集 合 的 
所 有 块 才 会 被 迁移 到 shard0004 和 shard0005 上 。 


再 举 一 个 例子 。 也 许 有 这 样 一 个 集合 ， 我 们 希望 其 出 现在 除 标 签 为 high 的 分 片 以 
外 的 任何 分 片上 。 可 为 所 有 的 非 高 性 能 分 片 添加 一 个 新 的 标签 ， 创 建 一 个 新 分 组 。 
分 片 可 创建 的 标签 多 少 没有 限制 : 


sh.addShardTag("shard0001", "whatever" 
sh.addShardTag("shard0002", "whatever" 
sh.addShardTag("shard0003", "whatever" 
sh.addShardTag("shard0004", "whatever" 
sh.addShardTag("shard0005", "whatever" 
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现在 ， 可 指定 该 集合 (名 为 normal.coll) 分 发 在 这 五 个 分 片上 : 





> sh.addTagRange("normal.coll", {"shardKey" : MinKey}, 
... {"shardKey" : MaxKey}, "whatever") 


不 能 动态 地 指定 集合 ， 如 “ 当 新 集合 创建 时 ， 将 其 随机 分 发 到 一 个 分 片上 ”。 但 是 ， 
可 使 用 定时 任务 来 做 这 些 事情 。 


如 果 操 作 失 误 或 是 改变 了 主意 ， 可 使 用 sh. removeShardTab() 删除 分 片 的 标签 ; 









































> sh.removeShardTag("shard0005", "whatever") 


如 果 删 除了 某 个 标签 范围 的 所 有 标签 (例如 ， 删 除了 标签 为 "high" 的 分 片 标签 )， 
均衡 器 不 会 再 将 数据 分 发 到 任何 地 方 ， 因 为 没有 可 用 的 位 置 。 所 有 数据 仍 可 读 可 写 ， 
但 不 会 被 迁移 到 其 他 位 置 ， 除 非 修改 标签 或 者 标签 范围 。 


不 存在 用 于 删除 标签 范围 的 辅助 函数 ， 但 可 手动 删除 。 和 手动 处 理 标 签 范 围 ， 可 通过 
mongos 访问 config.tags 命名 空间 。 类 似 地 ,分 片 的 标签 信息 保存 在 分 片 文档 
"tags" 字段 下 的 config.shards 命名 空间 。 如 分 片 文档 中 没有 "tags" 字段 ， 则 
该 分 片 就 不 存在 标签 。 


15.5.2 ”手动 分 片 

有 上 时候， 对 于 复杂 的 需求 或 是 特殊 的 情况 ， 我 们 可 能 希望 对 集群 的 数据 分 发 拥有 绝 
对 控制 权 。 如 果 不 希 望 数据 被 自动 分 发 ， 可 关闭 均衡 器 ， 使 用 moveChunk 命令 手动 
对 数据 进行 迁移 。 

要 关闭 均衡 器 ， 可 连接 到 一 个 mongos (任何 mongos 都 可 以 )， 然 后 使 用 以 下 命令 
更 新 config.settings 命名 空间 : 



































> db.settings.update({" id" : "balancer"}, {"enabled" : false}, true) 
注意 ， 这 是 一 个 upsert 操作 : 如果 均衡 器 设置 不 存在 ， 则 会 自动 创建 一 个 。 
如 正在 进行 迁移 ， 则 该 设置 要 等 到 当前 迁移 完成 之 后 才 会 生效 。 然 而 ， 一旦 当前 迁 
移 完成 了 ， 均 衡器 就 不 会 再 做 数据 移动 了 。 
只 要 均衡 器 被 关闭 ， 就 可 以 手动 做 数据 迁移 了 (如 有 必要 的 话 )。 首 先 ， 查 看 
config.chunks 找 出 每 个 块 的 分 发 位 置 ; 














> db.chunks.find() 


现在 ， 使 用 moveChunk 命令 将 块 迁移 到 其 他 分 片 。 指 定 需 被 迁移 块 的 下 边界 值 和 目 
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标 分 片 的 名 称 : 





> sh.moveChunk("test.manual.stuff", 

... {user id: NumberLong("-1844674407370955160")}, "test-rs1l") 

{ "millis" : 4079, "ok" : 1 } 
然而 ， 除 非 遇 到 特殊 情况 ， 否 则 都 应 使 用 MongoDB 的 自动 分 片 ， 而 非 手 动 进行 分 
片 。 如 果 最 后 得 到 一 个 拥有 一 个 热点 的 分 片 (这 并 非 是 我 们 所 期 望 的 )， 那 么 大 部 分 
数据 可 能 都 将 出 现在 这 个 分 片上 。 





尤其 不 要 在 均衡 器 开启 的 情况 下 手动 做 一 些 不 寻常 的 分 发 。 如 果 均 衡器 检测 到 一 些 
不 均衡 的 块 ， 则 会 对 调整 过 的 数据 进行 重新 分 发 ， 以 便 让 集合 再 次 处 于 均衡 状态 。 
如 果 希 望 得 到 非 均 衡 的 数据 块 分 发 ， 应 使 用 上 一 小 市 介绍 过 的 分 片 标签 技术 。 
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分 片 管理 








对 数据 库 管理 员 来 说 ,分 片 集群 是 最 困难 的 部 署 类 型 。 本 章 我 们 将 学 习 在 集群 上 执 
行 管理 任务 的 方方面面 ， 内 容 包 括 : 


。 检查 集群 状态 : 集群 有 哪些 成 员 ? 数据 保存 在 哪里 ”哪些 连接 是 打开 的 ? 

。 如 何 添加 、 删 除 和 修改 集群 的 成 员 ，; 

。 管理 数据 移动 和 手动 移动 数据 。 

16.1 检查 集群 状态 

有 一 些 辅助 函数 可 用 于 找 出 数据 保存 位 置 、 所 在 分 片 ， 以 及 集群 正在 进行 的 操作 。 

















16.1.1 使 用 sh. status 查看 集群 摘要 信息 

使 用 sh.status() 可 查看 分 片 、 数 据 库 和 分 片 集合 的 摘要 信息 。 如 果 块 的 数量 较 
少 ， 则 该 命令 会 打印 出 每 个 块 的 保存 位 置 。 否 则 它 只 会 简单 地 给 出 集合 的 片 键 ， 以 
及 每 个 分 片 的 块 数 : 


> sh.status() 
-- Sharding Status --- 


sharding version: { " id" : 1, "version" : 3 } 
shards: 
{ "_id" : "shard0000", "host" : "localhost:30000", 
"tags" : [ "USPS" , "Apple" ] } 
{ "_id" : "shard0001", "host" : "localhost:30001" } 
{ "_id" : "shard0002", "host" : "localhost:30002", "tags" : [ "Apple" ] } 
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databases : 





二 2 "admin", "partitioned" : false, "primary" "conNg" } 
下 "test", "partitioned" : true, "primary" "shard0001" } 
test.foo 
shard key: { "x" Ta SY 1 
chunks: 
shard0000 4 
shard0002 4 
shard0001 4 
XX { $minKey : 1 }, "y" : { $minKey : 1 } } -->> 
{0 yn 10000 } on : shard0000 
三 10000 } -->> { "x" 12208, "y" -2208 } 
on shard0002 
Te 12208, "y" -2208 } -->> { "x" : 24123, "y" : -14123 } 
on shard0000 
{7 "X24123,. "y" -14123 } -->> { "x" : 39467, "y" -29467 } 
on shard0002 
{ "x" : 39467, "y" -29467 } -->> { "x" : 51382, "y" -41382 } 
on shard0000 
{ "XY 3 DLE382, "YY -41382 } -->> { "x" : 64897, "y" -54897 } 
on shard0002 
{ "x" : 64897, "y" -54897 } -->> { "x" : 76812, "y" -66812 } 
on shard0000 
{ "x" : 76812, "y" -66812 } -->> { "x" : 92793, "y" -82793 } 
on shard0002 
TX 922793 My -82793 } -->> { "x" : 119599, "y" -109599 } 
on shard0001 
{ "x" 119599, "y" -109599 } -->> { "x" 147099, "y" -137099 } 
on shard0001 
{ "xX" 147099, "y" -137099 } -->> { "x" 173932, "y" -163932 } 
on shard0001 
{X73932; YYy" -163932 } -->> 
€ 六 { $maxKey : 1 }, "y" : { $maxKey : 1 } } on : shard0001 
test.ips 
Shard key: { "ip" 1} 
chunks: 
shard0000 之 
shard0002 3 
shard0001 3 
{ "ip" { $minKey : 1 } } -->> { "ip" : "002.075.101.096" } 
on : shard0000 
{ "ip" "002.075.101.096" } -->> { "ip" : "022.089.076.022" } 
on : shard0002 
0 "022.089.076.022" } -->> { "ip" : "038.041.058.074" } 
on : shard0002 
{Tp" "038.041.058.074" } -->> { "ip" : "055.081.104.118" } 
on : shard0002 
{ "ip" "055.081.104.118" } -->> { "ip" : "072.034.009.012" } 
on : shard0000 
{J "072.034.009.012" } -->> { "ip" : "090.118.120.031" } 
on : shard0001 
{ "ip" "090.118.120.031" } -->> { "ip"” : "127.126.116.125" } 
on : shard0001 
{ "ip" "127.126.116.125" } -->> { "ip" : { $maxKey : 1 } } 
on shard0001 
A 让 


tag: Apple { "ip" : "017.000.000.000" } -->> { "ip" : "018.000.000.000" } 
tag: USPS { "ip"” : "056.000.000.000" } -->> { "ip" : "057.000.000.000" } 
{ "_ id" : "test2", "partitioned" : false, "primary" : "shard0002" } 
块 的 数量 较 多 时 ，sh.status() 命令 会 概述 块 的 状态 ， 而 非 打印 出 每 个 块 的 相 
关 人 信息。 如 需 查 看 所 有 的 块 ， 可 使 用 sh.status(true) 命令 (true 参数 要 求 
SS 命令 打印 出 尽 可 能 详尽 的 信息 )。 


sh.status() 显示 的 所 有 信息 都 来 自 config 数据 库 。 


运行 sh.status() 命令 ， 使 MapReduce 获取 这 一 数据 ， 因 此 ， 如 采 局 动 数据 库 时 
指定 了 - -noscripting 选项 ， 则 无 法 运行 sh. status() 命令 。 








16.1.2 ”检查 配置 信息 

集群 相关 的 所 有 配置 信息 都 保存 在 配置 服务 器 上 config 数据 库 的 集合 中 。 可 直接 访 
问 该 数据 库 ， 不 过 shell 提供 了 一 些 辅 助 函 数 ， 并 通过 这 些 函 数 歼 取 更 适 于 阅读 的 信 
息 。 不 过 ， 可 始终 通过 直接 查询 config 数据 库 的 方式 ， 获 取 集 群 的 元 数据 。 





永远 不 要 直接 连接 到 配置 服务 器 ， 以 防 配置 服务 器 数据 被 不 小 心 修改 或 删 
~ 除 。 应 先 连接 到 mongos， 然 后 通过 config 数据 库 来 查询 相关 信息 ， 方 法 
与 查询 其 他 数据 库 一 样 : 

mongos> use config 
如 果 通 过 mongos 操作 配置 数据 (而 不 是 直接 连接 到 配置 服务 器 )，mongos 
会 保证 将 修改 同步 到 所 有 配置 服务 器 ， 也 会 防止 危险 操作 的 发 生 ， 如 意外 
删除 config 数据 库 等 。 



































总 的 来 说 ， 不 应 直接 修改 config 数据 库 的 任何 数据 (例外 情况 下 面 会 提 到 )。 如 果 
确实 修改 了 某 些 数据 ， 通 常 需要 重启 所 有 的 mongos 服务 器 ， 才 能 看 到 效果 。 


config 数据 库 中 有 一 些 集合 ， 本 市 将 介绍 这 些 集 合 的 内 容 和 使 用 方法 。 




















1. config.shards 


shards 集合 跟踪 记录 集群 内 所 有 分 片 的 信息 。shards 集合 中 的 一 个 典型 文档 结构 如 下 : 





> db.shards.findOne() 
{ 
"_id" : "spock", 
"host" : "spock/server-1:27017,server-2:27017,server-3:27017", 
"tags" 2 下 
"us-east", 
"64gb mem", 
"cpu3" 
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} 
分 片 的 "_id" 来 自 于 副本 集 的 名 称 ， 所 以 集群 中 的 每 个 副本 集 名 称 都 必须 是 唯一 的 。 
更 新 副本 集 配置 的 时 候 (比如 添加 或 删除 成 员 )，host 字段 会 自动 更 新 。 





2. onfig.databases 


databases 集合 跟踪 记录 集群 中 所 有 数据 库 的 信息 ， 不 管 数据 库 有 没有 被 分 片 : 








> qb; ee find() 

"admin", "partitioned" : false, "primary" : "config" } 
{fd "test1", "partitioned" : true, "primary" : "spock" } 
下 "test2", "partitioned" : false, "primary" : "bones" } 











如 果 在 数据 库 上 执行 过 enableSharding， 则 此 处 的 "partitioned" 字段 值 就 是 
true。"primary" 是 “ 主 数据 库 ”(home base)。 数 据 库 的 所 有 新 集合 均 默 认 被 创 
建 在 数据 库 的 主 分 片上 。 











3. config.collections 
collections 集合 跟踪 记录 所 有 分 片 集合 的 信息 ( 非 分 片 集合 信息 除外 )。 其 中 的 文档 
结构 如 下 : 


> db.collections.findOne() 


{ 
"_id" : "test.foo", 
"lastmod" : ISODate("1970-01-16T17:53:52.9342"), 
"dropped" : false, 
i ,ds i 3 
"unique" : true 
} 


下 面 是 一 些 重要 字段 。 
。 _id 
集合 的 命名 空间 。 


。 key 
片 键 。 本 例 中 指 由 x 和 y 组 成 的 复合 片 键 。 


。 Unique 
表明 片 键 是 一 个 唯一 索引 。 该 字段 只 有 当 值 为 true 时 才 会 出 现 〈 表 明 片 键 是 唯 
一 的 )。 片 键 默认 不 是 唯一 的 。 








4. config.chunks 


chunks 集合 记录 有 集合 中 所 有 块 的 信息 。chunks 集合 中 的 一 个 典型 文档 结构 如 下 所 示 : 





278 | 第 16 章 


"_ id" : "test.hashy-user id -1034308116544453153"， 
"lastmod" : { "t" : 5000, "i" : 50 }, 

"lastmodEpoch" : ObjectId("50f5c648866900ccb6ed7c88"), 

"ns" : "test.hashy", 

"min" : { "user id" : NumberLong("-1034308116544453153") }, 
"max" : { "user id" : NumberLong("-732765964052501510") }， 


"shard" : "test-rs2" 
} 
下 面 这 些 字段 最 为 有 用 
。 id 


块 的 唯一 标识 符 。 该 标识 符 通常 由 命名 空间 、 片 键 和 块 的 下 边界 值 组 成 。 


。 ns 


块 所 属 的 集合 名 称 。 








块 范围 的 最 小 值 (包含 )。 





。 Max 


块 范围 的 最 大 值 (不 包含 )。 





。 Shard 


块 所 属 的 分 片 。 


这 里 的 lastmod 和 LastmodEpoch 字段 用 于 记录 块 的 版 本 。 例 如 ， 如 一 个 名 为 
foo.bar-_id-1 的 块 被 拆 分 为 两 个 块 ， 原 本 的 foo.bar-_id-1 会 成 为 一 个 较 小 的 
新 块 ， 我 们 需要 一 种 方式 来 区 别 该 块 与 之 前 的 块 。 因 此 ， 我 们 用 tt 和 i 字段 表示 块 
的 主 (major) 版 本 和 副 (minor) 版 本 : 主 版 本 会 在 块 被 迁移 至 新 的 分 片 时 发 生 改 
变 ， 副 版 本 会 在 块 被 拆 分 时 发 生 改 变 。 


sh.status() 获取 的 大 部 分 信息 都 来 自 于 config.chunks 集合 。 





5. config.changelog 
changelog 集合 可 用 于 跟踪 记录 集群 的 操作 ， 因 为 该 集合 会 记录 所 有 的 拆 分 和 迁移 
操作 。 


拆 分 记录 的 文档 结构 如 下 : 





{ 
"_id" : "router1-2013-02-09T18:08:12-5116908cab10a03b0cd748c3"， 
"server" : "spock-01", 
"clientAddr" : "10.3.1.71:62813", 
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"time" : ISODate("2013-02-09T18:08:12.5742Z")，, 

"what" : "split", 

"ns" : "test.foo", 

"details" : { 

"before" : { 

"min"” : { "x" : { $minKey : 1 }, 
"max"” : { "x" : { $maxKey : 1 }, 
"lastmod" : Timestamp(1000, 0), 
"lastmodEpoch" : ObjectId("000000000000000000000000") 


"y" : { $minKey : 1 } }, 
"y" : { $maxKey : 1 } } 


了 


}, 
"teft" :+ 
"min™” : { "x" : { $minKey : 1 }, "y" : { $minKey : 1 } }, 
"max"” : { "x" : 0, "y" : 10000 }, 
"lastmod" : Timestamp(1000, 1), 
"lastmodEpoch" : ObjectId("000000000000000000000000") 
}, 
"right” ; 蔷 
"min™” : { "x"” : 0, "y" : 10000 }, 
"max"” : { "x" : { $maxKey : 1 }, "y" : { $maxKey : 1 } }, 
"lastmod" : Timestamp(1000, 2), 
"lastmodEpoch" : ObjectId("000000000000000000000000") 
} 


} 


从 details 字段 中 可 以 看 到 文档 在 拆 分 前 和 拆 分 后 的 内 容 。 





这 里 显示 的 是 集合 第 一 个 块 被 拆 分 后 的 情景 。 注 意 ， 每 个 新 块 的 副 版 本 都 发 生 了 增 





长 : 新 块 的 Lastmod 分 别 是 Timestamp(1000，1) 和 Timestamp(1000 





2) 


数据 迁移 的 操作 比较 复杂 ， 每 次 迁移 实际 上 会 创建 4 个 独立 的 changelog 文档 : 一 
条 是 迁移 开始 时 的 状态 ， 一 条 是 from 分 片 的 文档 ， 一 条 是 to 分 片 的 文档 ， 还 有 一 
条 是 迁移 完成 时 的 状态 。 中 间 的 两 个 文档 比较 有 参考 价值 ， 因 为 可 从 中 看 出 每 一 步 














操作 耗 时 多 和 久 。 这 样 就 可 得 知 ， 造 成 迁移 瓶颈 的 到 底 是 磁盘 、 网 络 还 是 基 
因 了 。 
例如 ，from 分 片 的 文档 结构 如 下 : 
{ 
"_id" : "routerl-2013-02-09T18:15:14-5116923271b903e42184211c", 
"server" : "spock-01", 
"clientAddr" : "10.3.1.71:27017", 
"time" : ISODate("2013-02-09T18:15:14.3882Z"), 
"what" : "moveChunk.to", 
"ns" : "test.foo", 
"details" : { 
"min a {X24123; "YY" 4123- 十， 
"max"” : { "x" : 39467, "y" : -29467 }, 


"stepl of 5" : 0， 
"step2 of 5" : 0， 


其 他 什么 原 





"step3 of 5" : 900, 
"step4 of 5" : 0， 
"step5 of 5" :; 142 


}; 
details 字段 中 的 每 一 步 表示 的 都 是 时 间 ，stepN of 5 信息 以 毫秒 为 单位 ， 显 示 
了 步骤 的 耗 时 长 得 。 当 from 分 片 收 到 mongos 发 来 的 moveChunk 命令 时 ， 它 会 : 
(1) 检查 命令 的 参数 ， 
(2) 向 配置 服务 器 申请 获得 一 个 分 布 锁 ， 以 便 进 入 迁移 过 程 ; 
(3) 党 试 连接 到 to 分 片 ; 
(4) 数据 复制 ， 这 是 整个 过 程 的 “临界 区 ” (critical section ) ， 
(5) 与 to 分 片 和 配置 服务 器 一 起 确认 迁移 是 否 成 功 完成 。 





注意 ，step4 of 5 中 的 to 和 from 分 片 间 进 行 的 是 直接 通信 : 每 个 分 片 都 是 直接 
连接 到 另 一 个 分 片 和 配置 服务 器 上 ， 以 进行 迁移 。 如 果 from 分 片 在 迁移 过 程 的 最 
后 一 步 出 现 短 暂 的 网 络 连 接 问题 ， 它 可 能 会 处 于 无 法 撤销 迁移 操作 也 无 法 继续 进行 
下 去 的 状态 。 在 这 种 情况 下 ，mongod 会 关闭 。 




















to 分 片 的 changloe 文档 与 from 分 片 类 似 ， 但 步骤 有 些许 不 同 : 


{ 
"_id" : "router1-2013-02-09T18:15:14-51169232ab10a03bgcd748e5"， 
"server" : "spock-01", 
"clientAddr" : "10.3.1.71:62813", 
"time" : ISODate("2013-02-09T18:15:14.391Z")，, 
"what" : "moveChunk.from", 
"ns 3° test:fo0", 
"details" : { 
min XX" 241237 "y"™ :=14123: 二， 
"max"” : { "x" : 39467, "y" : -29467 }, 
"stepl of 6" : 0， 
"step2 of 6" : 2, 
"step3 of 6" : 33, 
"step4 of 6" : 1032, 
"step5 of 6" : 12, 
"step6 of 6" : 0 
} 
} 


当 to 分 片 收 到 from 分 片 发 来 的 命令 时 ， 它 会 执行 如 下 操作 。 


(1) 迁移 索引 。 如 果 该 分 片 不 包含 任何 来 自 迁 移 集合 的 块 ， 则 需 知 道 有 哪些 字段 上 建 
立 过 索引 。 如 果 在 此 之 前 to 分 片 已 有 来 自 于 该 集合 的 块 ， 则 可 忽略 此 步骤 。 
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(2) 删除 块 范围 内 已 存在 的 任何 数据 。 之 前 失败 的 迁移 〈 如 果 有 的 话 ) 可 能 会 留 有 
数据 残余 ， 或 者 是 正 处 于 恢复 过 程 当中 ， 此 时 我 们 不 希望 残留 数据 与 新 数据 混 
杂 在 一 起 。 

(3) 将 块 中 的 所 有 文档 复制 到 to 分 片 。 

(4) 复制 期 间 ， 在 to 分 片上 重新 执行 曾 在 这 些 文档 上 执行 过 的 操作 。 

(5) 等 待 to 分 片 将 新 迁移 过 来 的 数据 复制 到 集群 的 大 多 数 服 务 器 上 

(6) 修改 块 的 元 数据 以 完成 迁移 过 程 ， 表 明 数 据 已 被 成 功 迁 移 到 to 分 片上 。 




















6. config.tags 
该 集合 的 创建 是 在 为 系统 配置 分 片 标签 时 发 生 的 。 每 个 标签 都 与 一 个 块 范围 相关 联 : 


> db.tags.find() 











{ 
ee 
"ns" : "test.ips", 
"min" : {"ip"” : "056.000.000.000"} 
}, 
"ns" : "test.ips", 
"min"” : {"ip" : "056.000.000.000"}, 
"max" : {"ip"” : "057.000.000.000"}, 
"tag" : "USPS" 
3 
{ 
六 
"ns" : "test.ips"， 
"min" : {"ip"” : "017.000.000.000"} 
}, 
"ns" : "test.ips", 
"min" : {"ip" : "017.000.000.000"}, 
"max" : {"ip" : "018.000.000.000"}, 
"tag" : "Apple" 
} 


7. onfig.settings 

该 集合 含有 当前 的 均衡 器 设置 和 块 大 小 的 文档 信息 。 通 过 
启 或 关闭 均衡 器 ， 也 可 以 修改 块 的 大 小 。 注意 ， 应 总 是 连 
的 值 ， 而 不 应 直接 连接 到 配置 服务 器 进行 修改 。 


16.2 ”查看 网 络 连 接 


集群 的 各 组 成 部 分 间 存 在 大 量 的 连接 。 本 节 我 们 将 学 习 与 分 片 相关 的 连接 信息 。 网 
络 信 息 会 在 第 23 章 详细 介绍 。 


该 集合 的 文档 ， 可 开 
ee 








二 
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16.2.1 查看 连接 统计 
可 使 用 connPoolStats 命令 ， 查 看 mongos 和 mongod 之 间 的 连接 信息 ， 并 可 得 知 
服务 器 上 打开 的 所 有 连接 : 


> db.adminCommand({"connPoolStats" : 1}) 
{ 
"createdByType": { 
"sync": 857, 
"set": 4 


"numDBCLientConnection": 35, 
"numAScopedConnection": 0, 
"hosts": { 
"config-01:10005,config-02:10005,config-03:10005": { 
"created": 857, 
"available": 2 
}, 
"spock/spock-01:10005,spock-02:10005,spock-03:10005": { 
"created": 4, 
"available": 1 
} 
}, 
"totalAvailable": 3, 
"totalCreated": 861, 
"ok": 1 
} 


形 如 "host1, host2, host3" 的 主机 名 是 来 自 配 置 服务 器 的 连接 ， 也 就 是 用 于 “ 同 


步 ” 的 连接 。 形 如 "name/host1,host2,...,hostN" 的 主机 是 来 自分 片 的 连接 。 
available 的 值 表明 当前 实例 的 连接 池 中 有 多 少 可 用 连 车 接 。 


意 ， 只 有 在 分 片 内 的 mongos 和 mongod 上 运行 这 个 命令 才 会 有 效 。 


在 一 个 分 片上 执行 connPoolStats， 输 出 信息 中 可 看 到 该 分 片 与 其 他 分 片 间 的 连 
接 ， 包 括 连 接 到 其 他 分 片 做 数据 迁移 的 连接 。 分 片 的 主 连接 会 直接 连接 到 另 一 分 片 
的 主 连接 上 ， 然 后 从 目标 分 片 吸取 数据 。 


进行 迁移 时 ， 分 片 会 建立 一 个 RepLicaSetMonitor (该 进程 用 于 监控 副本 集 的 健 
康 状 况 ) ， 用 于 追踪 记录 迁移 另 一 端 分 片 的 健康 状况 。 由 于 mongod 不 会 销毁 这 个 监 
控 器 ， 所 以 有 时 会 在 一 个 副本 集 的 日 志 中 看 到 其 他 副本 集成 员 的 信息 。 这 是 很 正常 
的 ， 不 会 对 应 用 程序 造成 任何 影响 。 











16.2.2 ”限制 连接 数量 
当 有 客户 端 连接 到 mongos 时 ，mongos 会 创建 一 个 连接 ， 该 连接 应 至 少 连 接 到 一 个 
分 片上 ， 以 便 将 客户 端 请 求 发 送 给 分 片 。 因 此 ， 每 个 连接 到 mongos 的 客户 端 连 接 
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都 会 至 少 产生 一 个 从 mongos 到 分 片 的 连接 。 


如 果 有 多 个 mongos 进程 ， 可 能 会 创建 出 非常 多 的 连接 ， 甚 至 超出 分 片 的 处 理 能 

一 个 mongos 最 多 允许 20 000 个 连接 (mongod 也 是 如 此 )。 如 果 有 5 个 mongos 进程 ， 
每 个 mongos 有 10 000 个 客户 端 连接 ， 那么 这 些 mongos 可 能 会 试图 创建 50 000 个 
到 分 片 的 连接 ! 


为 防止 这 种 情况 的 发 生 ， 可 在 mongos 的 命令 行 配置 中 使 用 maxConns 选项 ， 这 样 
可 以 限制 mongos 能 够 创建 的 连接 数量 。 可 使 用 下 列 公 式 计 算 分 片 能 够 处 理 的 来 自 
单一 mongos 的 连接 数量 ; 

maxConns=20 000 - (mongos 进程 的 数量 x3) - (每 个 副本 集 的 成 员 数 量 x3) - 
其 他 /mongos 进程 的 数量 ) 


以 下 为 公式 的 相关 说 明 。 

















We 





。 (mongos 进 程 的 数量 x 3) 
每 个 mongos 会 为 每 个 mongod 创建 3 个 连接 : 一 个 用 于 转发 客户 端 请 求 ， 一 个 用 
于 追踪 错误 信息 ， 即 写 回 监听 器 (writeback listener) ， 一 个 用 于 监控 副本 集 状 态 。 


。 (每 个 副本 集 的 成 员 数 量 x3) 
主 节 点 会 与 每 个 备份 节点 创建 一 个 连接 ， 而 每 个 备份 节点 会 与 主 节 点 创建 两 个 连 
接 ， 因 此 总 共 是 3 个 连接 。 


。 (其 他 /mongos 进 程 的 数量 ) 
这 里 的 其 他 指 其 他 可 能 连接 到 mongod 的 进程 数量 ， 这 种 连接 包括 MMS 代理 、 
shell 的 直接 连接 (管理 员 用 ) ， 或 者 是 迁移 时 连接 到 其 他 分 片 的 连接 。 


注意 ，maxConns 只 会 阻止 mongos 创建 多 于 maxConns 数量 的 连接 ， 但 并 不 会 帮助 
处 理 连 接 耗 尽 的 问题 。 连 接 耗 尽 时 ， 请 求 会 发 生 阻 塞 ， 等 待 某 些 连 接 被 释放 。 因 此 ， 
必须 防止 应 用 程序 使 用 超过 maxConns 数量 的 连接 ， 尤 其 是 在 mongos 进程 数量 不 
断 增加 时 。 


MongoDB 实例 在 安全 退出 时 ， 会 在 终止 运行 之 前 关闭 所 有 连接 。 已 经 连接 到 
MongoDB 的 成 员 会 立即 收 到 套 接 字 错 误 〈socket error) ， 并 能 够 重新 刷新 连接 。 但 
是 ， 如 果 MongoDB 实例 由 于 断 电 、 崩 溃 或 者 网 络 问 题 突然 离线 ， 那 些 已 经 打开 的 
套 接 字 很 可 能 没有 被 关闭 。 在 这 种 情况 下 ， 集 群 内 的 其 他 服务 器 很 可 能 会 认为 这 个 
MongoDB 实例 仍 在 有 效 运 转 ， 但 是 当 试 图 在 该 MongoDB 实例 上 执行 操作 时 ， 就 会 
遇 到 错误 ， 继 而 刷新 连接 (如 果 此 时 该 MongoDB 实例 再 次 上 线 且 运转 正常 的 话 )。 
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连接 数量 较 少 时 ， 可 快速 检测 到 某 台 MongoDB 实例 是 否 已 离线 。 但 是 ， 当 有 成 千 
上 万 个 连接 时 ， 每 个 连接 都 需要 经 历 被 尝试 、 检 测 失败 ， 并 重新 建立 连接 的 过 程 ， 
此 过 程 中 会 得 到 大 量 的 错误 。 在 出 现 大 量 重新 连接 时 ， 除 了 重启 进程 ， 没 有 其 他 特 
殊 有 效 的 方法 。 


16.3 ”服务 器 管理 


随 着 集群 的 增长 ， 我 们 可 能 需要 增加 集群 容量 或 者 是 修改 集群 配置 。 本 市 我 们 将 学 
习 向 集群 添加 服务 器 以 及 从 集群 删除 服务 器 的 方法 。 








16.3.1 添加 服务 器 


可 随时 向 集群 中 添加 新 的 mongos。 只 要 保证 在 mongos 的 - -configdb 选项 中 指定 
了 一 组 正确 的 配置 服务 ，mongos 即 可 立即 与 客户 端 建立 连接 。 


如 14 章 所 示 ， 可 使 用 addShard 命令 ， 向 集群 添加 新 分 片 。 





16.3.2 ”修改 分 片 的 服务 器 

使 用 分 片 集群 时 ， 我 们 可 能 会 希望 修改 某 单 独 分 片 的 服务 器 。 要 修改 分 片 的 成 员 ， 
需 直 接连 接 到 分 片 的 主 服务 器 上 (而 不 是 通过 mongos)， 然 后 对 副本 集 进 行 重新 
配置 。 集 群 配置 会 自动 检测 更 改 ， 并 将 其 更 新 到 config.shards 上 。 不 要 手动 修改 


config.shards。 














只 有 在 使 用 单机 服务 器 作为 分 片 ， 而 不 是 使 用 副本 集 作 为 分 片 时 ， 才 需 手 动 修改 

config.shards。 

将 单机 服务 器 分 片 修改 为 副本 集 分 片 

最 简单 的 方式 是 添加 一 个 新 的 空 副 本 集 分 片 ， 然 后 移 除 单机 服务 器 分 片 (参见 

16.3.3 节 )。 

如 果 希 望 把 单机 服务 器 分 片 转换 为 副本 集 分 片 ， 过 程 会 复杂 得 多 ,而且 需要 停机 。 

(1) 停止 向 系统 发 送 请 求 。 

(2) 关闭 单机 服务 器 (这 里 称 其 为 server-1) 和 所 有 的 mongos 进程 。 

(3) 以 副本 集 模式 重启 server-1 (使 用 - - repLSet 选项 )。 

(4) 连接 到 server-1， 将 其 作为 一 个 单 成 员 副 本 集 进行 初始 化 。 

(5) 连接 到 配置 服务 器 ， 替 换 该 分 片 的 入 口 ， 在 config.shards 中 将 分 片 名 称 替 换 为 
setName/server-1:27017 的 形式 。 确 保 三 个 配置 服务 器 都 拥有 相同 的 配置 信 
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息 。 手 动 修改 配置 服务 器 是 有 风险 的 ! 
可 在 每 个 配置 服务 器 上 执行 dbhash 命令 ， 以 确保 配置 信息 相同 : 
> db.runCommand({"dbhash" : 1}) 


这 样 可 以 得 到 每 个 集合 的 MD5 散 列 值 。 不 同 配置 服务 器 上 ，config 数据 库 的 集 
合 可 能 会 有 所 不 同 ， 但 config.shards 应 始终 保持 一 致 。 
(6) 重启 所 有 mongos 进程 。 它 们 会 在 启动 时 从 配置 服务 器 读 取 分 片 数 据 ， 然 后 将 副 
本 集 当 作 分 片 对 待 。 
(7) 重启 所 有 分 片 的 主 服务 器 ， 刷 新 其 配置 数据 。 
(8) 再 次 向 系统 发 送 请 求 。 
(9) 向 server-1 副本 集中 添加 新 成 员 。 


这 一 过 程 非常 复杂 ， 而 且 很 容易 出 错 ， 因 此 不 建议 使 用 。 应 尽 可 能 地 将 空 的 副本 集 
作为 新 的 分 片 添加 到 集群 中 ， 数 据 迁移 的 事情 交 给 集群 去 做 就 好 了 。 









































16.3.3 ”删除 分 片 

通常 来 说 ， 不 应 从 集群 中 删除 分 片 。 如 果 经 常 在 集群 中 添加 和 删除 分 片 ， 会 给 系统 
带 来 很 多 不 必要 的 压力 。 如 果 向 集群 中 添加 了 过 多 的 分 片 ， 最 好 是 什么 也 不 做 ， 系 
统 早晚 会 用 到 这 些 分 片 ， 而 不 应 该 将 多 余 的 分 片 删 掉 ， 等 以 后 需要 的 时 候 再 将 其 重 
新 添加 到 集群 中 。 不 过 ， 在 必要 的 情况 下 ， 是 可 以 删除 分 片 的 。 


首先 保证 均衡 器 是 开启 的 。 在 排出 数据 (draining) 的 过 程 中 ， 均 衡器 会 负责 将 
待 删除 分 片 的 数据 迁移 至 其 他 分 片 。 执 行 removeShard 命令 ， 开 始 排出 数据 。 
removeShard 将 待 肌 除 分 片 的 名 称 作为 参数 ， 然 后 将 该 分 片上 的 所 有 块 都 移 至 其 他 
分 片上 ; 

















> db.adminCommand({"removeShard" : "test-rs3"}) 
{ 
"msg" : "draining started successfully", 
"state" : "started", 
"shard" : "test-rs3", 
"note" : "you need to drop or movePrimary these databases", 
"dbsToMove" : [ 
"blog", 
"music", 
"prod" 
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如 果 分 片上 的 块 较 多 ， 或 者 有 较 大 的 块 需要 移动 ， 排 出 数据 的 过 程 可 能 会 耗 时 更 长 。 
如 果 存 在 特大 块 (jumbo chunk， 参 见 16.4.4 节 )， 可 能 需 临 时 提高 其 他 分 片 的 块 大 
小 ， 以 便 能 够 将 特大 块 迁 移 到 其 他 分 片 。 


如 需 查看 哪些 块 已 完成 迁移 ， 可 再 次 执行 removeShard 命令 ， 查 看 当前 状态 : 








> db.adminCommand({"removeShard" : "test-rs3"}) 
{ 

"msg" : "draining ongoing", 

"state" : "ongoing", 

"remaining" : { 


"chunks" : NumberLong(5), 
"dbs" : NumberLong(0) 


“OK 二 本 


在 一 个 处 于 排出 数据 过 程 的 分 片上 ， 可 执行 removeShard 任意 多 次 。 


块 在 移动 前 可 能 需要 被 拆 分 ， 所 以 有 可 能 会 看 到 系统 中 的 块 数量 在 排出 数据 时 发 生 
了 增长 。 假 设 有 一 个 拥有 5 个 分 片 的 集群 ， 块 的 分 布 如 下 : 


test-rsg 10 
test-rsl 10 
test-rs2 10 
test-rs3 11 
test-rs4 11 



































该 集群 共有 52 个 块 。 如 果 删 除 test-rs3 分 片 ， 最 终 的 结果 可 能 会 是 : 





test-rsg 15, 
test-rsl Js 
test-rs2 15 
test-rs4 15 


集群 现在 拥有 60 个 块 ， 其 中 18 个 来 自 test-rs3 分 片 (原本 有 11 个 ， 还 有 7 个 是 在 
排出 数据 的 过 程 中 创建 的 )。 


所 有 的 块 都 完成 迁移 后 ， 如 果 仍 有 数据 库 将 该 分 片 作 为 主 分 片 ， 需 在 删除 分 片 前 将 
这 些 数 据 库 移 除 掉 。 removeShard 命令 的 输出 结果 可 能 如 下 : 











> db.adminCommand({"removeShard" : "test-rs3"}) 
{ 

"msg" : "draining ongoing", 

"state" : "ongoing", 

"remaining" : { 


"chunks" : NumberLong(0), 
"dbs" : NumberLong(3) 





分 片 管理 | 287 


"note" : "you need to drop or movePrimary these databases", 
"dbsToMove" : [ 

"blog", 

"music", 

"prod" 


二 
} 


为 完成 分 片 的 删除 ， 需 先 使 用 movePrimary 命令 将 这 些 数据 库 移 走 : 


> db.adminCommand({"movePrimary" : "blog", "to" : "test-rs4"}) 

{ 
"primary " : "test-rs4:test-rs4/ubuntu:31500,ubuntu:31501,ubuntu:31502", 
"ok" :1 

} 





然后 再 次 执行 removeShard 命令 : 


> db.adminCommand({"removeShard" : "test-rs3"}) 
{ 
"msg" : "removeshard completed successfully", 
"state" : "completed", 
"shard" : "test-rs3", 
"ok" :1 
= 


最 后 一 步 不 是 必需 的 ， 但 可 确保 已 确实 完成 了 分 片 的 删除 。 如 果 不 存在 将 该 分 片 作 
为 主 分 片 的 数据 库 ， 则 块 的 迁移 完成 后 ， 即 可 看 到 分 片 删除 成 功 的 输出 信息 。 


注意 ， 如 果 分 请 开始 排出 数据 ， 就 没有 内 置办 法 停止 这 一 过 程 了 。 


16.3.4 ”修改 配置 服务 器 
修改 配置 服务 器 是 非常 困难 的 ， 而且 有 风险 ， 通 常 还 需要 停机 。 注 意 ， 修 改 配 置 服 
务 器 前 ， 应 做 好 备份 


在 运行 期 间 ， 所 有 mongos 进程 的 --configdb 选项 值 都 必须 相同 。 因 此 ， 要 
修改 配置 服务 器 ， 首 先 必 须 关 闭 所 有 的 mongos 进程 (mongos 进程 在 使 用 旧 的 
- -Configdb 参数 时 ， 无 法 继续 保持 运行 状态 ) ， 然 后 使 用 新 的 - -configdb 参数 重 
启 所 有 mongos 进程 。 


例如 ， 将 一 台 配 置 服务 器 增 至 三 台 是 最 常见 的 任务 之 一 。 为 实现 此 操作 ， 首 先 应 关 
闭 所 有 的 mongos 进程 、 ee ， 以 及 所 有 的 分 片 。 然 后 将 配置 服务 器 的 数据 
目录 复制 到 两 台新 的 配置 服务 器 全 举 三 台 配 置 服务 器 就 可 以 拥有 完全 相同 的 数 
据 目 录 )。 接 着 ， 启 动 这 三 台 配 置 服务 器 和 所 有 分 片 。 然 后 ， 将 - -configdb 选项 
指定 为 这 三 台 配 置 服务 器 ， 最 后 重启 所 有 的 mongos 进程 。 
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16.4 数据 均衡 
通常 来 说，MongoDB 会 自动 处 理 数 据 均衡 。 本 节 我 们 将 学 习 如 何 启用 和 禁用 自动 
均衡 ， 以 及 如 何人 为 干涉 均衡 过 程 。 


16.4.1 均衡 器 
在 执行 几乎 所 有 的 数据 库 管理 操作 之 前 ， 都 应 先 关 闭 均衡 器 。 可 使 用 下 列 shell 辅助 
函数 关闭 均衡 器 : 

> sh.setBalancerState(false) 
均衡 器 关闭 后 ， 系 统 则 不 会 再 进入 均衡 过 程 ， 但 该 命令 并 不 能 立即 终止 进行 中 的 均 
衡 过 程 : 迁移 过 程 通常 无 法 立即 停止 。 因 此 ， 应 检查 config.locks 集合 ， 以 查看 均 
衡 过 程 是 否 仍 在 进行 中 : 


> db.locks.find({" id" : "balancer"})["state"] 
0 





此 处 的 0 表明 均衡 器 已 被 关闭 。 可 翻阅 14.4 市 查看 均衡 器 状态 相关 内 容 。 


均衡 过 程 会 增加 系统 负载 :目标 分 片 必须 查询 源 分 片 块 中 的 所 有 文档 ， 将 文档 插入 
目标 分 片 的 块 中 ， 源 分 片 最 后 必须 删除 这 些 文档 。 在 以 下 两 种 特殊 情况 下 ， 迁 移 会 
导致 性 能 问题 。 


(1) 使 用 热点 片 键 可 保证 定期 迁移 (因为 所 有 的 新 块 都 是 创建 在 热点 上 的 )。 系 统 必 
须 有 能 力 处 理 源源 不 断 写 入 到 热点 分 片上 的 数据 。 

(2) 向 集群 中 添加 新 的 分 片 时 ， 均 衡器 会 试图 为 该 分 片 写 入 数据 ， 从 而 触发 一 系列 的 
迁移 过 程 。 


如 果 发 现 数据 迁移 过 程 影 响 了 应 用 程序 性 能 ， 可 在 config.settings 集合 中 为 数据 均 
衡 指定 一 个 时 间 窗 口 。 执 行 下 列 更 新 语句 ， 均 衡 则 只 会 在 下 午 1 点 到 4 点 间 发 生 : 




















> db.settings.update({" id" : "balancer"}, 
... {"$set" : {"activeWindow" : {"start" : "13:00", "stop" : "16:00"}}}, 
mt CLies.) 


如 指定 了 均衡 时 间 窗 ， 则 应 对 其 进行 严密 监控 ， 以 确保 mongos 确实 只 在 指定 的 时 
间 内 做 均衡 。 
如 需 混 用 手动 均衡 和 自动 均衡 ， 必 须 格外 小 心 。 因 为 自动 均衡 器 总 是 根据 数据 集 的 


当前 状态 来 决定 数据 迁移 ， 而 不 考虑 数据 集 的 历史 状态 。 例 如 ， 假 设 有 两 个 分 片 
shardA 和 shardB ， 每 个 分 片 都 有 500 个 块 。 由 于 shardA 上 的 写 请 求 比较 多 ， 因 此 
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我 们 关闭 了 均衡 器 ， 从 最 活跃 的 块 中 取出 30 个 移 至 shardB。 此 时 如 再 启用 均衡 器 ， 
则 会 立即 将 30 个 块 (很 可 能 不 是 刚刚 的 30 块 ) 从 shardB 移 至 shardA， 以 均衡 两 
个 分 片 拥 有 的 块 数量 。 


为 防止 这 种 情况 发 生 ， 可 在 启用 均衡 器 之 前 从 shardB 选取 30 个 不 活跃 的 块 移 至 
shardA。 这 样 两 个 分 片 间 就 不 会 存在 不 均衡 ， 均 衡器 也 不 会 进行 数据 块 的 移动 了 。 
另外 ， 也 可 在 shardA 上 拆 分 出 一 些 块 ， 以 实现 shardA 和 shardB 的 均衡 。 


注意 ， 均 衡器 只 使 用 块 的 数量 ， 而 非 数 据 大 小 ， 作 为 衡量 分 片 间 是 否 均衡 的 指标 。 
因此 ， 如 果 A 分 片 只 拥有 儿 个 较 大 的 数据 块 ， 而 B 分 片 拥有 许多 较 小 的 块 (但 总 数 
据 大 小 比 A 小 )， 那 么 均衡 器 会 将 B 分 片 的 一 些 块 移 至 A 分 片 ， 从 而 实现 均衡 。 


16.4.2 ”修改 块 大 小 

块 中 的 文档 数量 可 能 为 0， 也 可 能 多 达 数 百 万 。 通 常情 况 下 ， 块 越 大 ， 迁 移 至 分 片 
的 耗 时 就 越 长 。 在 第 13 章 中 ， 我 们 使 用 的 是 1 MB 的 块 ， 所 以 块 移动 起 来 非常 容易 
与 迅速 。 但 在 实际 系统 中 ， 这 通常 是 不 现实 的 。MongoDB 需要 做 大 量 非 必 要 的 工 
作 ， 才 能 将 分 片 大 小 维持 在 几 MB 以 内 。 块 的 大 小 默认 为 64 MB ， 这 个 大 小 的 块 既 
易于 迁移 ， 又 不 会 导致 过 多 的 流失 。 


有 时 可 能 会 发 现 移动 64 MB 的 块 耗 时 过 长 。 可 通过 减 小 块 的 大 小 ， 提 高 迁移 速度 。 














使 用 shell 连接 到 mongos， 然 后 修改 config.settings 集合 ， 从 而 完成 块 大 小 的 修改 : 
> db.settings.findone() 
{ 
"_id" : "chunksize", 
"value" : 64 
} 
> db.settings.save({" id" : "chunksize", "value" : 32}) 


以 上 修改 操作 将 块 的 大 小 减 至 32 MB。 已 经 存在 的 块 不 会 立即 发 生 改变 ， 执 行 块 拆 
分 操作 时 ， 这 些 块 即 可 拆 分 成 32 MB 大 小 。mongos 进程 会 自动 加 载 新 的 块 大 小 。 


注意 ， 该 设置 的 有 效 范 围 是 整个 集群 : 它 会 影响 所 有 集合 和 数据 库 。 因 此 ， 如 需 对 
一 个 集合 使 用 较 小 的 块 ， 而 对 另 一 集合 使 用 较 大 的 块 ， 比 较 好 的 解决 方式 是 取 一 个 
折 中 的 值 (或 者 将 这 两 个 集合 放 在 不 同 的 集群 中 )。 


如 果 MongoDB 频繁 进行 数据 迁移 或 文档 较 大 ， 则 可 能 需要 增加 块 的 大 小 。 


16.4.3 ”移动 块 
如 前 所 述 ， 同 一 块 内 的 所 有 数据 都 位 于 同一 分 片上 。 如 该 分 片 的 块 数量 比 其 他 分 片 
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多 ， 则 MongoDB 会 将 其 中 的 一 部 分 块 移 至 其 他 块 数量 较 少 的 分 片上 。 移 动 块 的 过 
程 叫做 迁移 (migration) ，MongoDB 就 是 这 样 在 集群 中 实现 数据 均衡 的 。 
可 在 shell 中 使 用 moveChunk 辅助 函数 ， 手 动 移动 块 : 

> sh.moveChunk("test.users", {"user id" : NumberLong("1844674407370955160")}, 


. "Sspock") 
{ mittis™, = "40795 “OK :让 











以 上 命令 会 将 包含 文档 user id 为 1844674407370955160 的 块 移 至 名 为 spock 的 
分 片上 。 必 须 使 用 片 键 来 找 出 所 需 移动 的 块 (本 例 中 的 片 键 是 user id)。 通 常 ， 
指定 一 个 块 最 简单 的 方式 是 指定 它 的 下 边界 ， 不 过 指定 块 范围 内 的 任何 值 都 可 以 
( 块 的 上 边界 值 除外 ， 因 为 其 并 不 包含 在 块 范围 内 )。 该 命令 在 块 移动 完成 后 才 会 返 
回 ， 因 此 需 一 定 耗 时 才能 看 到 输出 信息 。 如 某 个 操作 耗 时 较 长 ， 可 在 日 志 中 详细 查 
看 问题 所 在 。 


如 某 个 块 的 大 小 超出 了 系统 指定 的 最 大 值 ，mongos 则 会 拒绝 移动 这 个 块 : 





























> sh.moveChunk("test.users", {"user id" : NumberLong("1844674407370955160")}, 


. "Sspock") 
{ 
"Cause" : { 
"chunkTooBig" : true, 
"estimatedChunkSize" : 2214960, 
"OK® 0; 
"errmsg" : "chunk too big to move" 
}, 
"ok" : 0， 
"errmsg" : "move failed" 
} 


本 例 中 ， 移 动 这 个 块 之 前 ， 必 须 先 手动 拆 分 这 个 块 。 可 使 用 splitAt 命令 对 块 进行 
拆 分 : 


> db.chunks.Nnd({"ns" : "test.users", 
... "min.user id" : NumberLong("1844674407370955160")}) 
{ 
"_ id" : "test.users-user id NumberLong(\"1844674407370955160\")", 
"ns" :; "test.users", 
"min" : { "user id" : NumberLong("1844674407370955160") }, 
"max" : { "user id" : NumberLong("2103288923412120952") }， 
"shard" : "test-rs2" 
} 
> sh.splitAt("test,.ips", {"user id" : NumberLong("2000000000000000000")}) 
{ "ok" : 1} 
> db.chunks.Nnd({"ns" : "test.users", 


. "min.user id" : {"$gt" : NumberLong("1844674407370955160")}, 
. "max.user id" : {"$lt" : NumberLong("2103288923412120952")}}) 
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" id” : "test,users-user id NumberLong(\"1844674407370955160\")", 
"ns”: "test.users", 

"min"” : { "user id" : NumberLong("1844674407370955160") }, 

"max" : { "user id" :; NumberLong("2000000000000000000") 上 


"shard" : "test-rs2" 

} 

{ 
"_ id" : "test,.users-user id NumberLong(\"2000000000000000000\")", 
"ns"” :; "test.users", 
"min"” : { "user id" :; NumberLong("2000000000000000000") 上 
"max" : { "user id" : NumberLong("2103288923412120952") }， 
"shard" : "test-rs2" 

} 


块 被 拆 分 为 较 小 的 块 后 ， 就 可 以 被 移动 了 。 也 可 以 调 高 最 大 块 的 大 小 ， 然 后 再 移动 
这 个 较 大 的 块 。 不 过 应 尽 可 能 地 将 大 块 拆 分 为 小 块 。 不 过 有 时 有 些 块 无 法 被 拆 分 ， 
这 些 块 被 称 作 特大 块 。 


16.4.4 ”特大 块 

假设 使 用 date 字段 作为 片 键 。 集 合 中 的 date 字段 是 一 个 日 期 字符 串 ， 格 式 为 
year/month/day， 也 就 是 说 ，mongos 一 天 最 多 只 能 创建 一 个 块 。 最 初 的 一 段 时 间 
内 一 切 正常 ， 直 到 有 一 天 ， 应 用 程序 的 业务 量 突然 出 现 病毒 式 增长 ， 流 量 比 平常 大 
了 上 千 倍 ! 


这 一 天 的 块 要 比 其 他 日 期 的 大 得 多 ， 但 由 于 块 内 所 有 文档 的 片 键 值 都 是 一 样 的 ， 因 
此 这 个 块 是 不 可 拆 分 的 。 


如 果 块 的 大 小 超出 了 config.settings 中 设置 的 最 大 块 大 小 ， 那 么 均衡 器 就 无 法 移动 
这 个 块 了 。 这 种 不 可 拆 分 和 移动 的 块 就 叫做 特大 块 ， 这 种 块 相当 难 对 付 。 


举例 来 说 ， 假 如 有 3 个 分 片 shard1、shard2 和 shard3。 如 果 使 用 热点 片 键 模 式 ( 参 
见 15.2.1 节 )， 假 设 shardl 是 热点 片 键 ， 则 所 有 写 请 求 都 会 被 分 发 到 shardl 上 。 
mongos 会 试图 将 块 均 衡 地 分 发 在 这 些 分 片上 。 但 是 ， 均 衡器 只 能 移动 非特 大 块 ， 因 
此 它 只 会 将 所 有 较 小 块 从 热点 分 片 迁 移 到 其 他 分 片 。 

现在 ， 所 有 分 片上 的 块 数 基 本 相同 ， 但 shard2 和 shard3 上 的 所 有 块 都 小 于 64 MB。 
如 shardl 上 出 现 了 特大 块 ， 则 shardl 上 会 有 越 来 越 多 的 块 大 于 64 MB。 这 样 ， 即 
使 三 个 分 片 的 块 数 非常 均衡 ， 但 shard1 会 比 另 两 个 分 片 更 时 被 填 满 。 

出 现 特大 块 的 表现 之 一 是 ， 某 分 片 的 大 小 增长 速度 要 比 其 他 分 片 快 得 多 。 也 可 使 用 
sh.status() 来 检查 是 否 出 现 了 特大 块 : 特大 块 会 存在 一 个 jumbo 属性 。 
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> sh.status() 


{XL -7 } -->>{ "x" :5 } on : shard0001 
{ "x"” :5}-->>{"x" :6 } on : shard0001 jumbo 
{ "x"” :6}-->>{ "x" :7} on : shard0001 jumbo 
{ "XX" 7}-->>{ "x" : 339 } on : shard0001 


可 使 用 dataSize 命令 检查 块 大 小 。 
首先 ， 使 用 config.chunks 集合 ， 查 看 块 范围 








> Use config 
> var chunks = db.chunks.find({"ns" : "acme.analytics"}).toArray() 


然后 根据 这 些 块 范围 ， 找 出 可 能 的 特大 块 : 





> Use dbName 


> db.runCommand({"dataSize" : "dbName.collName", 
. "keyPattern" : {"date"” : 1},，// 片 键 
. "min" : chunks[0] .min, 
. "max" : chunks[0] .max}) 


{ "size" : 11270888, "numObjects" : 128081, "millis" : 100, "ok"” : 1 } 














但 要 小 心 ， 因 为 dataSize 命令 要 扫描 整个 块 的 数据 才能 知道 块 的 大 小 。 因 此 如 果 
可 能 ， 应 首先 根据 自己 对 数据 的 了 解 ， 尽 可 能 缩小 搜索 范围 : 特大 块 是 在 特定 日 期 
出 现 的 吗 ? 例如 ， 如 果 11 月 1 号 的 时 候 系 统 非常 繁忙 ， 则 可 尝试 检查 这 一 天 创建 的 
块 的 片 键 范围 。 如 使 用 了 GridFS， 而且 是 依据 files id 字段 进行 分 片 的 ， 则 可 通 
过 fs.files 集合 查看 文件 大 小 。 

1. 分 发 特大 块 

为 修复 由 特大 块 引发 的 集群 不 均衡 ， 就 必须 将 特大 块 均衡 地 分 发 到 其 他 分 片上 。 

这 是 一 个 非常 复杂 的 手动 过 程 ， 而 且 不 应 引起 停机 (可 能 会 导致 系统 变 慢 ， 因 为 要 
迁移 大 量 的 数据 )。 接 下 来 ， 我 们 以 from 分 片 来 指 代 拥 有 特大 块 的 分 片 ， 以 to 分 片 
来 指 代 特 大 块 即将 移 至 的 目标 分 片 。 注 意 ， 如 有 多 个 from 分 片 ， 则 需 对 每 个 from 
分 片 重复 下 列 步 又 : 


(1) 关闭 均衡 器 ， 以 防 其 在 这 一 过 程 中 出 来 捣乱 : 























> sh.setBalancerState(false) 





(2) MongoDB 不 允许 移动 大 小 超出 最 大 块 大 小 设 定 值 的 块 ， 所 以 需 临 时 调 高 最 大 块 
大 小 的 设 定 值 。 记 下 特大 块 的 大 小 ， 然 后 将 最 大 块 大 小 设 定 值 调整 为 比特 大 块 
大 一 些 的 数值 ， 比 如 10 000。 块 大 小 的 单位 是 MB: 
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> use config 


> db.settings.findOne({" id" : "chunksize"}) 
《 
"_id" : "chunksize", 
"value" : 64 
3 
> db.settings.save({" id" : "chunksize", "value" : 10000}) 


(3) 使 用 moveChunk 命令 将 特大 块 从 from 分 片 移 至 to 分 片 。 如 担心 迁移 会 对 应 用 
程序 的 性 能 造成 影响 ， 可 使 用 secondaryThrootle 选项 ， 放 慢 迁 移 的 过 程 ， 
减缓 对 系统 性 能 的 影响 : 


> db.adminCommand({"moveChunk" : "acme.analytics", 
. "find" : {"date" : new Date("10/23/2012")}, 
... "to" : "shard0002", 
. "SecondaryThrottle" : true}) 


secondaryThrottle 会 强制 要 求 迁 移 过 程 间歇 进行 ， 每 迁移 完 一 些 数据 ， 需 等 
待 集群 中 的 大 多 数 分 片 成 功 完 成 数据 复制 后 再 进行 下 一 次 迁移 。 该 选项 只 有 在 
使 用 副本 集 分 片 时 才 会 生效 。 如 使 用 单机 服务 器 分 片 ， 则 该 选项 不 会 生效 。 

(4) 使 用 spLitChunk 命令 对 from 分 片 剩余 的 块 进 行 拆 分 ， 这 样 可 以 增加 from 分 片 
的 块 数 ， 直 到 实现 from 分 片 与 其 他 分 片 块 数 的 均衡 。 


(5) 将 块 大 小 修改 回 最 初 值 : 








> db.settings.save({" id" : "chunksize", "value" : 64}) 

(6) 启用 均衡 器 。 
> sh.setBalancerstate(true) 
均衡 器 被 再 次 启用 后 ， 仍 旧 不 能 移动 特大 块 ， 不 过 此 时 那些 特大 块 都 已 位 于 合 
适 的 位 置 了 。 


2. 防止 出 现 特大 块 
随 着 存储 数据 量 的 增长 ， 上 一 节 提 到 的 手动 过 程 变 得 不 再 可 行 。 因 此 ， 如 在 特大 块 
方面 存在 问题 ， 应 首先 想 办 法 避免 特大 块 的 出 现 。 


为 防止 特大 块 的 出 现 ， 可 修改 片 键 ， 细 化 片 键 的 粒度 。 应 尽 可 能 保证 每 个 文档 都 
拥有 唯一 的 片 键 值 ， 或 至 少 不 要 出 现 某 个 片 键 值 的 数据 块 超出 最 大 块 大 小 设 定 值 
的 情况 。 


例如 ， 如 使 用 前 面 所 述 的 年 /月 /日 片 键 ， 可 通过 添加 时 、 分 、 秒 来 细 化 片 键 粒度 。 
类 似 地 ， 如 使 用 粒度 较 大 的 片 键 ， 如 日 志 级 别 ， 则 可 添加 一 个 粒度 较 细 的 字段 作为 
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片 键 的 第 二 个 字段 ， 如 MD5 散 列 值 或 UDID。 这 样 一 来 ， 即 使 有 许多 文档 片 键 的 第 
一 个 字段 值 是 相同 的 ， 也 可 一 直 对 块 进行 拆 分 ， 也 就 防止 了 特大 块 的 出 现 。 


16.4.5 ”刷新 配置 


最 后 一 点 ，mongos 有 时 无 法 从 配置 服务 器 正确 更 新 配置 。 如 发 现 配置 有 误 ， 
mongos 的 配置 过 旧 或 无 法 找到 应 有 数据 ， 可 使 用 fLushRouterConfig 命令 手动 刷 
新 所 有 缓存 : 


> db.adminCommand({"flushRouterConfig" : 1}) 


如 fLushRouterConfig 命令 没 能 解决 问题 ， 则 应 重启 所 有 的 mongos 或 mongod 
进程 ， 以 便 清 除 所 有 可 能 的 缓存 。 
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第 五 部 分 





应 用 管理 


第 17 章 





了 解 应 用 的 动态 


启动 并 运行 应 用 后 ， 要 如 何 知道 它 正在 做 些 什么 呢 ?” 本 章 将 介绍 如 何 了 解 MongoDB 


正在 进行 何 和 


FP 查 询 ， 有 多 少数 据 正在 写 入 ， 以 及 如 何 探查 MongoDB 具体 正在 做 些 


什么 。 我 们 将 学 到 : 


。 如 何 找 到 并 终止 那些 拖 慢 速度 的 操作 ， 
。 获取 并 分 析 有 关 集 合 和 数据 库 的 统计 数据 ， 
。 用 命令 行 工 具 来 了 解 MongoDB 正在 做 些 什么 。 


17.1 了 解 正在 进行 的 操作 


要 想 找到 是 哪些 操作 拖 慢 了 速度 ， 看 看 正在 进行 的 操作 不 失 为 一 种 简单 的 方法 。 速 
度 慢 的 操作 耗 时 更 长 ， 更 有 可 能 被 发 现 。 虽 然 不 能 保证 一 定 会 有 结果 ， 但 这 是 个 不 


错 的 开始 。 











查看 正在 进行 的 操作 ， 可 使 用 db.current0p() 函数 : 





> db.currentOp() 


{ 


"inprog" : [ 


"opid" : 34820, 
"active" : true, 
"secs running" : 0， 
"op" : "guery", 

"ns" : "test.users", 
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"query" 


}, 


:{ 
"count" 
"query" 
"Username" 


et 


"fields" : { 


} 
}, 


"client" 


"desc" 


"threadId" 


"users", 


"user1l2345" 


"127.0:0,1:39931", 


"conn3", 
"0x7f12d61c7700"， 


"connectionId" 


"Locks" 


"stest" : "Rr" 


}, 


mt 


人 


"waitingForLock" 
"numYields" : 0, 
"lockStats" : { 


"timeLockedMicros" 


}, 


: false, 


号 


"timeAcquiringMicros" : { 


} 


该 函数 会 列 出 数据 库 正在 进 


。 opid 


这 是 操作 的 唯一 标识 符 (identifier)， 可 通过 


。 active 
表示 该 操作 是 否 正在 运 
等 待 其 他 操作 交 出 锁 。 








。 secs running 


表示 该 操作 已 经 执行 的 时 间 。 可 通 


"nw" 


去 行 。 如 这 


行 的 所 有 操作 ， 输 出 的 信息 


"r" : NumberLong(9), 
: NumberLong(0) 


中 有 些 重要 的 字段 。 





一 字段 的 值 是 faLse， 意 味 着 此 操作 已 交 昌 


它 来 终止 一 个 操作 (参见 17.1.2 市 )。 


或 正 


过 它 来 判断 是 哪些 查询 耗 时 过 长 ， 或 者 占用 了 





过 多 的 数据 库 资源 。 

。 op 
表示 操作 的 类 型 。 通 常 是 查询 、 揪 入、 更 新 、 删 除 中 的 一 种 。 注 意 ， 数 据 库 命 令 
也 被 作为 查询 操作 来 处 理 。 
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。 desc 
该 值 可 与 日 志 (log) 信息 联系 起 来 。 日 志 中 与 此 连接 相关 的 每 一 条 记录 都 会 以 
[conn3] 为 前 缀 ， 因 此 可 以 此 来 筛选 相关 的 日 志 信息 。 





。 Locks 


描述 该 操作 使 用 的 锁 的 类 型 。 其 中 “^” 表 示 全 局 锁 。 





。 waitingForLock 
表示 该 操作 是 否 因 正 在 等 待 其 他 操作 交 出 锁 而 处 于 阻塞 状态 。 








。 numYields 
表示 该 操作 交 出 锁 (yield)， 而 使 其 他 操作 得 以 运行 的 次 数 。 通 常 ， 进 行文 
档 搜 索 的 操作 (查询 、 更 新 和 删除 ) 可 交 出 锁 。 只 有 在 其 他 操作 列队 等 待 该 
操作 所 持 的 锁 时 ， 它 才 会 交 出 自己 的 锁 。 简 单 地 讲 ， 如 果 没 有 其 他 操作 处 于 
waitingForLock 状态 ， 则 该 操作 不 会 交 出 锁 。 























。 lockstats.timeAcquiringMicros 

表示 该 操作 需要 多 长 时 间 才 能 取得 所 需 的 锁 。 
在 执行 current0p() 时 ， 可 添加 过 滤 条 件 ， 从 而 只 显示 符合 条 件 的 结果 。 例 如 ， 
只 显示 在 某 一 命名 空间 中 进行 的 操作 ， 或 只 显示 已 运行 了 一 定时 间 的 操作 。 把 查询 
条 件 作 为 参数 传 入 函数 来 进行 过 滤 : 





> db.currentOp({"ns" : "prod.users"}) 


对 于 current0p 中 的 任何 字段 都 可 以 进行 查询 ， 使 用 普通 的 查询 语句 即 可 。 


17.1.1 寻找 有 问题 的 操作 

db.current0p() 最 常见 的 作用 就 是 用 来 寻找 速度 较 慢 的 操作 。 可 采用 上 一 市 中 提 
到 的 过 滤 方 法 ， 来 查找 哪些 查询 消耗 的 时 间 超过 了 一 定 的 值 。 也 许 能 通过 该 方法 找 
出 哪里 缺少 了 索引 ， 或 是 进行 了 不 恰当 的 条 件 过 滤 。 

有 时 会 发 现 正 在 运行 一 些 不明 查 询 ， 这 通常 是 由 于 一 个 应 用 服务 器 在 运行 一 个 旧 的 
或 有 漏洞 的 软件 版 本 所 导致 的 。"client" 字段 可 用 来 帮助 追踪 找 出 这 些 不 明 操作 
的 来 源 。 


17.1.2 终止 操作 的 执行 
只 要 找到 了 想 要 终止 的 操作 ， 就 可 将 该 操作 的 opid 作为 参数 ， 通 过 执行 
db ,kiLtLop() 来 终止 该 操作 的 执行 : 
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> db.kitLOp(123) 
并 非 所 有 操作 都 能 被 终止 。 一 般 来 讲 ， 只 有 交 出 了 锁 的 进程 才能 被 终止 ， 因 此 更 新 
(update)、 查 找 (find)、 有 删除 (remove) 操作 都 可 被 终止 。 正 在 占用 锁 ， 或 正在 等 
待 其 他 操作 交 出 锁 的 操作 则 通常 无 法 被 终止 。 

如 果 向 一 个 操作 发 出 了 “kill” 信 和 号， 那么 它 在 db .current0p 的 输出 中 就 会 有 一 
个 kiLLed 字段 。 然 而 ， 只 有 从 当前 操作 列表 消失 后 ， 它 才 会 真正 的 得 到 终止 。 














17.1.3 ”假象 
在 查找 哪些 操作 耗 时 过 长 时 ， 可 能 会 发 现 一 些 长 时 间 运 行 的 内 部 操作 。 根 据 设置 ， 
MongoDB 可 能 会 长 时 间 地 执行 若干 请 求 。 最 常见 的 是 用 于 复制 (replication) 的 线 
程 ( 它 会 持续 向 同步 源 请 求 更 多 的 操作 ) 和 分 片 中 用 于 回 写 (writeback) 的 监听 器 
(listener)。 所 有 Local.oplog.rs 中 的 长 时 间 运 行 请 求 ， 以 及 所 有 回 写 监听 命令 ， 
都 可 以 被 忽略 掉 。 


如 以 上 操作 被 终止 ，MongoDB 则 会 重启 它们 。 不 过 ,通常 我 们 不 应 该 这 么 做 。 终 
止 用 于 复制 的 线程 会 短暂 地 中 止 复制 操作 ， 而 终止 掉 回 写 监听 器 则 可 能 会 造成 
mongos 遗漏 正常 的 写 入 错误 。 














17.1.4 避免 幽灵 操作 

这 是 一 个 不 第 见 的 ， 只 有 在 MongoDB 中 才 可 能 会 遇 到 的 问题 ， 尤 其 是 在 进行 静态 
加 载 (bulk-loading) 数据 至 集合 的 时 候 。 假 设 现在 我 们 建立 了 一 个 任务 (job)， 用 
于 在 MongoDB 中 进行 上 千 条 更 新 操作 ， 而 MongoDB 正 逐 源 趋 于 停止 。 我 们 迅速 
停止 了 这 一 任务 ， 终 止 了 正在 进行 的 所 有 更 新 操作 。 然 而 ， 我 们 会 发 现 新 的 更 新 操 
作 不 断 出 现 ， 哪 怕 任 务 已 经 不 再 运行 ! 























如 果 使 用 非 应 答 式 写 入 (unacknowledge write) 加 载 数 据 ， 应 用 触发 写 入 操作 的 
速度 可 能 要 比 MongoDB 处 理 的 速度 更 快 。 如 MongoDB 有 所 准备 ， 这 些 写 入 会 
堆积 在 操作 系统 的 套 接 字 缓 存 (socket buffer) 中 。 终 止 挤 MongoDB 正在 进行 的 
写 入 操作 后 ，MongoDB 则 开始 处 理 缓存 区 中 的 写 入 操作 。 即 使 停止 客户 端 发 送 ， 
MongoDB 也 会 处 理 这 些 缓存 中 的 写 和 请求， 因为 它们 已 经 被 MongoDB 所 接收 了 ， 
只 不 过 还 没有 进行 处 理 而 已 。 

阻止 这 些 幽 灵 写 入 的 最 好 方式 是 使 用 应 答 式 写 入 ， 即 每 次 写 入 操作 都 会 等 待 上 一 次 
写 入 操作 完成 后 才 会 进行 下 去 ， 而 非 在 上 一 次 写 入 进入 数据 库 服 务 器 的 缓存 区 就 开 
始 下 一 次 写 入 。 
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17.2 ”使 用 系统 分 析 器 


可 利用 系统 分 析 器 (system profiler) 来 查找 耗 时 过 长 的 操作 。 系 统 分 析 器 可 记录 特 
殊 集合 system.profile 中 的 操作 ， 并 提供 大 量 有 关 耗 时 过 长 的 操作 信息 ， 但 相应 的 ， 
mongod 的 整体 性 能 也 会 有 所 下 降 。 因 此 ， 我 们 可 能 只 需 定 期 打开 分 析 器 来 获取 信 
息 即 可 。 如 系统 已 经 负载 过 重 ， 则 建议 使 用 本 章 介绍 的 另 一 方法 来 解决 问题 。 


默认 情况 下 ， 系 统 分 析 器 处 于 关闭 状态 ， 不 会 进行 任何 记录 。 可 在 shell 中 运行 
db ,setProfilingLevel() 开启 分 析 器 : 











> db.setProfilingLevel (2) 

{ "was" : 0, "slowms" : 100, "ok" : 1 } 
以 上 命令 将 分 析 器 的 级 别 设 定 为 2 级 ,意味 着 “分 析 器 会 记录 所 有 内 容 ”。 数 据 库 收 
到 的 所 有 读 写 请 求 都 将 被 记录 在 当前 数据 库 的 system.profile 集合 中 。 每 一 个 数据 库 
都 启用 了 分 析 器 ， 这 也 将 带 来 大 量 的 性 能 损失 ， 因 为 每 一 次 写 操作 都 会 增加 额外 的 
写 入 时 间 ， 而 每 一 次 读 操作 都 要 等 待 写 锁 (因为 它 必 须 在 system.profile 集合 中 写 入 
记录 )。 然 而 ， 它 也 会 提供 给 我 们 系统 进行 操作 的 详尽 列表 : 











db.foo.insert({x:1}) 
db.foo.update({}, {$set: {x:2}}) 
.foo. remove() 
db.system.profile.find().pretty() 


VY VV YY 
人 各- 
Ce 


"ts" : ISODate("2012-11-07T18:32:35.2192Z")，, 
"op" : "insert", 


"millis" : 37, 
"client" : "127.0.0.1", 
"User™ sm 


"ts" : ISODate("2012-11-07T18:32:47.334Z" ) ， 
"op" : "update", 
"ns" : "test.foo", 


}, 
"updateobj" : { 
"$set" : { 
4 
} 


nscanned" : 1, 
"fastmod" : true, 
"miLtis ‘3. 

"client" : "127.0.0.1", 
"user : "" 
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{ 
"ts" : ISODate("2012-11-07T18:32:50.0582Z")， 
"op" : "remove 
"ns" : "test.foo 
"query" { 
}, 
"millis" : 0, 
velient™ S127:0:071" 
"User™” : "" 
} 


在 "client" (客户 端 ) 字段 中 可 看 到 各 操作 是 由 哪个 用 户 发 送 至 数据 库 的 。 如 果 
启用 了 身份 验证 系统 ， 也 能 够 看 到 各 操作 是 由 哪些 用 户 运 行 的 。 


一 般 情况 下 ， 我 们 只 想 关注 那些 耗 时 过 长 的 操作 ， 而 非 数 据 库 中 正在 进行 的 所 有 操 
作 。 为 此 ， 可 将 分 析 器 的 分 析 级 别 设 为 1， 即 只 显示 长 耗 时 操作 。 级 别 为 1 的 分 析 
器 会 默认 记录 耗 时 大 于 100 ms 的 操作 。 也 可 以 自 定义 “ 耗 时 过 长 ”的 标准 ， 把 这 个 
值 作为 db.setProfillingLevel() 函数 的 第 二 个 参数 。 以 下 命令 会 记录 所 有 耗 时 
超过 500 ms 的 操作 : 








> db.setProfilingLevel(1, 500) 
{ "was" : 2, "slowms" : 100, "ok" : 1 } 


将 分 析 级 别 设 为 0 可 关闭 分 析 器 。 

> db.setProfilingLevel (0) 

{ "was" : 1, "slowms" : 500, "ok" : 1 } 
通常 情况 下 ， 不 要 将 sLowms 的 值 设 得 过 小 。 即 使 分 析 器 处 于 关闭 状态 ，slowms 也 
会 对 mongod 有 所 影响 ， 因 为 它 决 定 了 哪些 操作 将 作为 耗 时 过 长 操作 被 记录 到 日 志 
中 。 因 此 ， 如 果 将 slowms 设 为 2 ms， 那 么 哪怕 分 析 器 是 关闭 着 的 ， 每 个 耗 时 超过 
2 ms 的 操作 也 都 会 出 现在 日 志 里 。 因 此 ， 如 果 出 于 某 些 需求 降低 了 slowms 的 值 ， 
那么 应 在 关闭 分 析 器 前 将 它 重 新 调 高 。 
可 通过 db.getProfilingLevel() 来 查看 当前 的 分 析 级 别 。 分 析 级 别 的 设 定 值 会 
在 重启 数据 库 后 被 清除 。 
也 可 在 命令 行 中 使 用 --profile level 和 --slowms time 选项 来 配置 分 析 器 的 
级 别 。 但 更 改 分 析 级 别 通常 只 是 在 调试 时 作为 一 种 临时 措施 ， 而 不 应 该 将 其 长 期 地 
加 入 配置 中 。 


如 开启 了 分 析 器 而 system.profile 集合 并 不 存在 ，MongoDB 会 为 其 建立 一 个 大 小 为 
若干 MB 的 固定 集合 (capped collection) 。 如 希望 分 析 器 运行 更 长 时 间 ， 可 能 需要 
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更 大 的 空间 来 记录 更 多 的 操作 。 此 时 可 关闭 分 析 器 ， 删 除 并 重新 建立 一 个 新 的 名 为 

system.profile 的 固定 集合 ， 并 令 其 容量 符合 需求 。 然 后 在 数据 库 上 重新 启用 分 析 器 。 
人 pu 一 | > 

17.3 计算 空间 消耗 


如 能 得 知 文档 、 索 引 、 集 合 、 数 据 库 各 占用 了 多 少 空 间 ， 就 可 以 方便 地 预 留 出 合适 
的 磁盘 和 内 存 空间 。 关 于 计算 工作 集 大 小 的 相关 内 容 请 参见 第 21 章 。 

















17.3.1 文档 
要 查询 文档 占用 的 空间 大 小 ， 最 简单 的 方法 是 在 shell 中 对 文档 使 用 0bject. 
bsonsize() 函数 。 此 函数 将 返回 该 文档 存储 在 MongoDB 中 时 占用 的 空间 大 小 。 


例如 ， 我 们 可 以 看 到 ， 将 _id 存储 为 0bjectId 类 型 ， 比 存储 为 字符 串 类 型 效率 更 高 。 


> Object.bsonsize({ id:0bjectId()}) 

22 

> // ""+0bjectId() 将 0bjectId 转换 为 字符 串 
> Object.bsonsize({ id:""+0bjectId()}) 
39 


也 可 以 直接 对 集合 中 的 文档 进行 查询 : 




















> Object.bsonsize(db.users.findOne()) 


这 一 国 数 会 精确 地 告知 文档 在 磁盘 上 占用 的 字 节 数目 。 然 而 这 其 中 并 未 包括 自动 生 
成 的 空间 间隔 (padding) 和 索引 ， 二 者 也 时 常 是 影响 集合 大 小 的 重要 因素 。 








17.3.2 ”集合 
stats 函数 可 用 来 显示 一 个 集合 的 信息 : 


> db.boards. stats() 

{ 
"ns" : "brains.boards", 
OU .3 Zs 
"size" : 32292, 
"avg0bjSize" : 2691, 
"storageSize" : 270336, 
"numExtents" : 3, 
"nindexes" : 2， 
"lastExtentSize" : 212992， 
"paddingFactor" : 1.0099999999999825, 
"flags"” : 1, 
"totalIndexSize" : 16352, 
"indexSizes" : { 
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6， 
"username 1 slug 1" : 8176 


KL 
} 
stats 函数 的 返回 结果 中 首先 是 命名 空间 ( 即 brains .boards)， 接 下 来 是 集合 中 
文档 的 数目 。 再 接 下 来 的 几 个 字段 与 集合 的 大 小 有 关 。size 的 值 相当 于 对 此 集合 中 
的 所 有 元 素 执行 0bject.bsonsize()， 再 将 这 些 结 果 相 加 得 到 的 值 ， 即 集合 中 所 
有 文档 占有 的 字 节 数 。 将 avg0bjSize (平均 对 象 大 小 ) 和 count 相 乘 ， 也 能 得 到 
size 的 值 。 


与 之 前 提 到 的 一 样 ， 所 有 文档 占用 的 字 节 总 数 并 不 等 于 集合 大 小 ， 集 合 还 占用 空间 
存放 其 他 重要 内 容 ， 即 文档 间 的 间隔 和 索引 信息 。 而 storageSize 不仅 包含 这 些 
内 容 ， 还 包含 集合 两 端 预 留 的 未 经 使 用 空间 。 集 合 末端 总 有 些 空余 空间 ， 以 便 新 文 
档 能 够 快速 添加 进来 。 


nindexes 是 集合 中 索引 的 数量 。 索 引 直 到 建立 完成 后 才 会 被 算 在 nindexes 中 ， 
也 只 有 在 出 现在 此 列表 后 才 可 以 被 使 用 。 由 于 目前 的 集合 还 很 小 ， 所 以 每 个 索引 
都 只 有 一 个 “ 桶 ”(bucket) 大 小 (8 KB)。 通 常 来 讲 ， 索 引 比 存储 的 数据 量 大 很 
多 ,含有 很 多 空 闪 空间， 以便 在 增加 新 入 口 (entry) 时 进行 优化 。 使 用 右 平衡 索引 
(right-balanced index， 参 见 5.1.1 市 ) 可 将 这 一 空闲 空间 减 至 最 小 。 而 随机 分 布 的 
索引 通常 会 有 50% 左右 的 空 闪 空间 ， 升 序 索 引 (ascending-order index) 则 有 10% 
的 空闲 空间 。 

随 着 集合 的 不 断 增长 ，stats() 返回 的 巨大 字 节 数目 可 能 会 变 得 不 易 辨识 。 
此 ， 可 在 使 用 stats 时 传 入 比例 因子 (scale factor) : KB 值 为 1024，MB 则 为 
1024 x 1024， 依 次 类 推 。 例 如 ， 以 下 命令 会 以 TB 为 单位 显示 集合 信息 : 




















> db.big.stats(1024*1024*1024*1024) 


17.3.3 “数据库 
数据 库 的 stats 国 数 与 集合 的 类 似 ; 


> db.stats() 

{ 
"db" : "brains", 
"collections" : 11, 


"objects" : 1109, 

"avg0bjSize" : 299.79440937781783， 
"dataSize" : 332472, 

"storageSize" : 1654784, 
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"numExtents" : 15, 
"indexes" : 11, 
"indexSize" : 114464, 
"fileSize" : 201326592, 
"nsSizeMB" : 16, 
"ok" :1 
} 
首先 返回 的 是 数据 库 名 称 和 其 中 包含 的 集合 数目 。objects 的 值 是 数据 库 中 所 有 集 


合 包 含 的 文档 总 数 。 


输出 中 包含 了 有 关 数 据 大 小 的 信息 。fileSize 应 该 总 是 最 大 的 ， 即 为 数据 库 文件 
分 配 的 总 空间 。 该 值 应 等 于 数据 目录 中 所 有 名 为 brains.* 的 文件 大 小 总 和 。 


二 大 的 字段 通常 是 storageSize， 即 数据 库 正 在 使 用 的 总 空间 大 小 。 该 值 与 
不 符 ， 因 为 fileSize 包含 了 预 分配 (preallocated) 文件 。 例 如 ， 如 果 
数据 目录 中 已 经 存在 brains.0、brains.1 和 brains.2 文件 ， 则 brains.2 会 被 0 填 满 。 
brains.2 写 入 数据 后 ， 文 件 brains.3 会 被 预 分 配 。 每 个 数据 库 内 应 一 直 存 在 一 个 填充 
为 0 的 空 文件 。 该 空 文件 被 写 入 数据 后 ， 下 一 个 文件 则 会 被 预 分 配 。 因 此 ， 该 空 文件 
(以 及 前 面 文件 中 未 被 使 用 的 部 分 ) 造成 了 NleSize 和 storageSize 间 的 差异 。 


dataSize 是 此 数据 库 中 的 数据 所 占用 的 空间 大 小 。 注 意 ， 该 值 并 不 包含 空闲 列表 
(free list) 中 的 空间 ， 但 包含 了 文档 间 的 间隔 。 因 此 该 值 与 storageSize 值 的 差 
异 ， 应 为 被 删除 文档 的 大 小 。。 


与 集合 的 stats() 一 样 ，db.stats() 可 接收 一 个 比例 因子 作为 参数 。 


如 果 对 一 个 不 存在 的 数据 库 使 用 db .stats()， 则 nsSizeMB 的 值 为 0。 这 是 .ns 文 
件 的 大 小 ， 它 本 质 上 相当 于 数据 库 中 的 内 容 表 。 任 何 存 在 的 数据 库 均 需 一 个 .ns 文件 。 


记 住 ,在 一 个 繁忙 的 系统 上 列 出 数据 库 信息 会 非常 慢 ， 而 且 会 阻碍 其 他 操作 。 因 此 
应 尽量 避免 此 类 操作 。 






































17.4 使 用 mongotop 和 monogostat 


MongoDB 自 带 了 几 个 命令 行 工具 ， 可 通过 每 隔 几 秒 输出 当前 状态 ， 帮 助 我 们 判断 
数据 库 正在 做 些 什么 。 


mongotop 类 似 于 UNIX 中 的 top 工具 ， 可 概述 哪个 集合 最 为 繁忙 。 可 通过 运行 
mongotop-Locks， 从 而 得 知 每 个 数据 库 的 锁 状 态 。 


mongostat 提供 有 关 服 务 器 的 信息 。mongostat 默认 每 秒 输出 一 次 包含 当前 状态 的 列 
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表 ， 可 在 命令 行 中 传人 参数 更 改 时 间 间 隔 。 每 个 字段 都 会 给 出 自 上 一 次 被 输出 以 来 ， 
所 对 应 的 活动 发 生 次 数 。 
。 insert /query/ update/ delete/ getmore/ command 
每 种 对 应 操作 的 发 生 次 数 。 
。 flushes 


mongod 将 数据 刷新 (flush) 到 磁盘 的 次 数 。 


。 mapped 
mongod 所 映射 的 内 存 数 量 ， 通 常 约 等 于 数据 目录 的 大 小 。 


。 Vsize 
mongod 正在 使 用 的 虚拟 内 存 大 小 ， 通 常 为 数据 目录 的 2 倍 大 小 (一 次 用 于 映射 
的 文件 ， 一 次 用 于 日 记 系 统 )。 





® EeS 


mongod 正在 使 用 的 内 存 大 小 ， 通 常 该 值 应 尽量 接近 机 器 的 所 有 内 存 大 小 。 




















。 Locked db 
在 上 一 个 时 间 片 中 ， 锁 定时 间 最 长 的 数据 库 。 该 百分比 是 根据 数据 库 被 锁定 的 时 
间 和 全 局 锁 的 锁定 时 间 来 计算 的 ， 这 意味 着 该 值 可 能 超过 100%。 





。 jdx miss % 
输出 中 最 令 人 困惑 的 字段 名 。 指 有 多 少 索 引 在 访问 中 发 生 了 缺 页 中 断 (page 
fault) ， 即 索引 入 口 〈 或 被 搜索 的 索引 内 容 ) 不 在 内 存 中 ， 使 得 mongod 必须 到 磁 
盘 中 进行 读 取 。 


。 qrlqw 
读 写 操作 的 队列 (queue) 大 小 ， 即 有 多 少 读 写 操作 被 阻塞， 等 待 进行 处 理 。 





。 ar|aw 
指 活动 客户 端的 数量 ， 即 正在 进行 读 写 操作 的 客户 端 。 
。 netIn 
通过 网 络 传输 进来 的 字 节 数 ， 由 MongoDB 进行 统计 (不 必 和 操 作 系 统 的 统计 相 


等 )。 


。 netOut 
通过 网 络 传输 出 的 字 节 数 ， 由 MongoDB 进行 统计 。 
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。 Conn 


此 服务 器 打开 的 连接 数 ， 包 括 输入 和 输出 ; 





注 
潍 





。 七 Ime 


指 以 上 统计 信息 所 用 时 间 。 


可 在 副本 集 或 分 片 集群 上 运行 mongostat。 如 使 用 - -discover 选项 ，mongostat 会 
尝试 在 初始 连接 的 成 员 中 寻找 副本 集 或 分 片 集群 中 的 所 有 成 员 ， 每 台 服 务 器 也 会 每 
秒针 对 每 个 成 员 输 出 一 行 信息 。 对 于 较 大 集群 而 言 ， 该 选项 会 使 数据 输出 过 多 过 快 
而 不 易于 管理 ， 但 于 较 小 集群 而 言 却 很 实用 ， 也 可 使 用 一 些 工 具 将 其 输出 的 信息 转 
换 为 更 可 读 的 形式 。 


要 想 获得 数据 库 中 正在 进行 的 操作 快照 ，mongostat 是 很 好 的 选择 ， 但 如 果 要 对 数据 
库 进 行 长 期 的 监控 ， 类 似 MMS 的 工具 可 能 更 为 适合 (参见 第 21 章 )。 
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第 18 章 


数据 管理 





本 章 将 学 习 如 何 管理 集合 与 数据 库 。 通 常 来 讲 ， 这 部 分 内 容 并 非 每 天 都 能 用 到 ， 但 
对 于 应 用 性 能 却 无 比重 要 ， 有 具体 包括 了 : 


。 配置 用 户 账户 和 身份 验证 ， 

。 在 正在 运行 的 系统 中 建立 索引 ， 

。 对 新 服务 器 进行 “ 预 热 "， 以 便 快速 上 线 ; 
。 整理 数据 文件 中 的 碎片 ， 

。 手动 预 分 配 新 的 数据 文件 。 


18.1 配置 身份 验证 


作为 系统 管理 员 ， 首 要 任务 之 一 就 是 确保 系统 安全 。 确 保 MongoDB 安全 的 最 好 办 
法 ， 即 在 一 个 可 信 环 境 中 运行 ， 确 保 只 有 可 信 的 机 器 能 够 连接 到 服务 器 。 也 就 是 说 ， 
即使 是 在 以 任务 为 颗粒 的 粗 粒 度 (coarse-grained) 访问 方式 中 ，MongoDB 也 支持 
针对 单个 连接 进行 身份 验证 。 








可 登陆 MongoDB 企业 版 (http://bit.ly/15nFgI13) 查看 更 多 复杂 的 安全 特 
4 。 性 。 在 http://docs.mongodb.org/manual/security 中 可 找到 最 新 的 认证 和 授权 


CDSN 2 
”信息 。 





311 


18.1.1 身份 验证 基本 原理 

MongoDB 中 ， 每 个 数据 库 的 实例 都 可 拥有 任意 多 个 用 户 。 安 全 检查 开启 后 ， 只 有 
通过 身份 验证 的 用 户 才 能 够 进行 数据 的 读 写 操作 。 

admin (管理 员 ) 和 1local (本 地 ) 是 两 个 特殊 的 数据 库 ， 它 们 当中 的 用 户 可 对 任何 
数据 库 进 行 操 作 。 这 两 个 数据 库 中 的 用 户 可 被 看 作 是 超级 用 户 。 经 认证 后 ， 管 理 员 
用 户 可 对 任何 数据 库 进行 读 写 ， 同 时 能 ”执行 某 些 只 有 管理 员 才 能 执行 的 命令 ， 如 
listDatabases 和 shutdown。 














已 开启 安全 检查 的 数据 库 在 被 启动 前 ， 应 至 少 添加 一 个 管理 员 用 户 。 我 们 来 看 一 个 
小 例子 ,假设 在 没有 开启 安全 检查 的 前 提 下 ， 已 在 shell 中 连接 到 了 服务 器 : 
> use admin 


switched to db admin 
> db.addUser("root", "abcd"); 


{ 

"user" : "root", 

"readOnly" : false, 

"pwd" : "la0flc3c3aald592f490a2addc559383" 
. 
> use test 


switched to db test 
> db.addUser("test user", "efgh"); 


{ 

"user"” : "test user", 

"readOonly" : false, 

"pwd" : "6076b96fc3fe6002c810268702646eec" 
} 
> db.addUser("read user", "ijkl", true); 
{ 

"user" : "read user", 

"readOnly" : true, 

"pwd" : "f497el80c9dc0655292fee5893c162f1" 
} 


在 以 上 操作 中 ， 我 们 增加 了 一 名 管理 员 用 户 root， 又 在 名 为 test 的 数据 库 中 增加 
了 两 个 用 户 。 其 中 名 为 read_user 的 用 户 只 有 读 权限 而 没有 写 权 限 。 在 shell 中 用 
addUser 创建 用 户 时 ， 将 第 三 个 参数 readOnly 设置 为 true， 即 可 创建 一 个 只 读 权 
限 用 户 。 运 行 addUser 时 ， 必 须 拥 有 相应 数据 库 的 写 入 权限 。 这 个 例子 中 由 于 我 们 
还 没有 启用 安全 检查 ， 因 此 可 在 任 一 数据 库 上 运行 addUser。 














并 4 








除 添加 新 用 户外 ，addUser 命令 还 可 用 来 更 改 用 户 密码 或 只 读 权限 状态 。 
人 心 4 。 只 需 在 运行 addUser 时 ， 将 用 户 名 和 新 密码 或 只 读 权限 设置 作为 参数 
二 即 可 。 
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后 


现在 重启 服务 器 ， 这 次 在 命 





令 行 选 项 中 加 上 - -auth 参数 ， 以 启用 安全 检查 。 局 用 





在 shell 中 重新 连接 并 尝试 以 下 操作 : 


> use test 
switched to db test 
> db.test.find(); 


error: { "$err" : "unauthorized for db [test] Lock type: -1 " } 
> db.auth("read user", "ijkl"); 
1 


> db.test.find(); 
{ "_id" : ObjectId("4bb007f53e8424663ea6848a"), "x" : 1} 
> db.test.insert({"x" : 2}); 
unauthorized 
db.auth("test user", "efgh"); 


2 

1 

> db.test.insert({"x": 2}); 
> db.test.find(); 
{ 
{ 
> 


"_id" : ObjectId("4bb007f53e8424663ea6848a"), "x" 1 守 
"_id" : ObjectId("4bb0088cbe1l7157d7b9cac07"), "x" 2 } 
Show dbs 
ssert: assert failed : ListDatabases failed:{ 
"assertion" : "unauthorized for db [admin] Lock type: 1 
"errmsg" : "db assertion failure", 
nok” 0 
} 


> use admin 

switched to db admin 

> db.auth("root", "abcd"); 
1 

> show dbs 

admin 

Local 

test 


在 建立 连接 之 初 ， 无 法 在 名 为 test 的 数据 库 中 进行 任何 读 写 操作 。 以 用 户 read_ 
user 的 身份 通过 验证 后 ， 可 运行 简单 的 find 指令 。 堂 试 写 入 数据 时 ， 却 
限 而 再 次 操作 失败 。 用 户 test_ user 在 创建 时 并 没有 被 设 定 为 只 读 用 户 ， 因 此 可 
正常 进行 读 写 操作 。 但 用 户 test_user 并 非 管理 员 用 户 ， 因 此 不 能 通过 执行 show 
dbs 指令 来 列 出 所 有 数据 库 。 以 上 操作 中 的 最 后 一 步 是 管理 员 用 户 root 的 身份 验 
证 ，root 可 对 任 一 数据 库 进 行 操 作 。 











18.1.2 配置 身份 验证 


启用 身份 验证 后 ， 客 户 端 必须 登录 才能 i 





因 没 有 权 





行 读 写 。 然 而 ， 在 MongoDB 中 有 一 点 值 


得 注意 : 在 admin 数据 库 中 建立 用 户 前 ， 服 务 器 上 的 ”本 地 “客户 端 可 对 数据 库 进 
行 读 写 。 
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一 般 情 况 下 这 不 是 问题 ， 正 常 新 建 管理 员 用 户 并 进行 身份 验证 即 可 。 唯 一 的 例外 
情况 则 与 分 片 有 关 。 分 片 时 ， 数 据 库 admin 会 被 保存 在 配置 服务 器 (config server) 
上 ， 所 以 分 片 中 的 mongod 甚至 并 不 知道 它 的 存在 。 因 此 ， 在 它们 看 来 ， 它 们 虽然 
开启 了 身份 验证 但 却 不 存在 管理 员 用 户 。 于 是 ,分 片 中 会 允许 一 个 本 地 的 (local) 
客户 端 无 需 身份 验证 便 可 读 写 数据 。 


希望 这 不 会 成 为 一 个 问题 ， 将 网 络 配 置 为 只 允许 客户 端 访问 mongos 进程 即 可 。 不 
过 ， 如 担心 客户 端 在 分 片 的 本 地 上 运行 ， 不 通过 mongos 进程 而 直接 连接 到 分 片 的 
话 ， 可 在 分 片 中 添加 管理 员 用 户 。 

注意 ， 我 们 并 不 想 让 分 片 集群 知道 这 些 管理 员 用 户 的 存在 ， 因 为 已 经 存在 了 一 个 
admin 数据 库 。 在 分 片上 建立 的 admin 数据 库 仅 供 我 们 使 用 。 要 进行 这 一 操作 ， 可 
连接 到 每 个 分 片 的 主 节点 ， 然 后 运行 addUser() 函数 : 























> db.addUser("someUser", "theirPassword") 
应 保证 新 建 用 户 的 副本 集 是 作为 集群 中 的 分 片 存在 的 。 如 果 新 建 了 管理 员 用 户 ， 并 
尝试 使 用 addShard 命令 将 mongod 作为 分 片 加 入 集群 ， 会 发 现 这 一 命令 无 法 执行 
(因为 集群 中 已 经 存在 了 名 为 admin 的 数据 库 )。 


18.1.3 身份 验证 的 工作 原理 


数据 库 中 的 用 户 是 作为 文档 被 储存 在 其 syste.users 集合 中 的 。 这 种 用 以 保存 用 
户 信息 的 文档 结构 是 {user : username, read0nLy : true, pwd : pass- 
word hash}。 其 中 password hash 是 基于 username 和 密码 生成 的 散 列 值 。 


了 解 了 用 户 身份 信息 的 存储 位 置 与 方法 后 ， 可 方便 地 对 其 进行 管理 。 例 如 ， 要 删除 
一 个 用 户 ， 只 需 从 system.users 集合 中 删除 这 一 用 户 的 文档 即 可 。 














> db.auth("test user", "efgh"); 
1 


> db.system.users.remove({"user" : "test user"}); 
> db.auth("test user", "efgh"); 
0 





用 户 进行 身份 验证 时 ， 服 务 器 可 通过 绑 定 执行 authenticate 命令 的 连接 ， 跟 踪 身 
份 验 证 。 这 意味 着 只 要 驱动 程序 或 其 他 工具 使 用 了 连接 池 或 遇 到 故障 而 切换 到 另 一 
节点 ， 已 经 过 身份 验证 的 用 户 也 需 在 新 的 连接 上 重新 进行 认证 。 这 一 操作 应 由 驱动 
程序 在 后 台 进 行 处 理 。 
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18.2 ”建立 和 删除 索引 

本 书 第 5 章 介 绍 了 用 于 建立 索引 的 命令 ， 但 没有 深入 介绍 这 些 命令 的 运行 过 程 。 建 
立 索 引 是 数据 库 最 耗费 资源 的 操作 之 一 ， 所 以 应 小 心地 安排 建立 索引 。 

建立 索引 需 MongoDB 查找 集合 中 每 一 个 文档 内 被 索引 的 字段 (或 正 要 建立 索引 的 
字段 )， 然 后 对 查找 到 的 值 进行 排序 。 不 出 所 料 ， 随 着 集合 体积 的 增长 ， 该 操作 消耗 
非常 大 。 因 此 ， 建 立 索 引 时 ， 应 使 用 对 生产 服务 器 影响 最 小 的 方式 。 














18.2.1 在 独立 的 服务 器 上 建立 索引 
在 独立 的 服务 器 上 ， 可 在 空间 时 间 于 后 台 建 立 索 引 。 除 此 之 外 ， 没 有 什么 更 好 的 办 
法 来 减轻 建立 索引 所 需 的 性 能 开销 。 在 后 台 建 立 索 引 ， 可 利用 background: true 


参数 运行 ensureIndex 命令 : 


> db.foo.ensureIndex({"somefield" : 1}, {"background" : true}) 





任何 类 型 的 索引 均 可 在 后 台 完成 建立 。 


在 前 台 建 立 索 引 要 比 在 后 台 建 立 索 引 耗 时 少 ， 但 在 索引 建立 期 间 会 锁定 数据 库 ， 从 
而 导致 其 他 操作 无 法 进行 数据 读 写 。 而 后 台 在 建立 索引 期 间 ， 则 会 定期 释放 写 锁 ， 
从 而 保证 其 他 操作 的 运行 。 这 意味 着 后 台 建 立 索 引 耗 时 更 长 ， 尤 其 是 在 频繁 进行 写 
入 的 服务 器 上 。 但 后 台 服 务 器 在 建立 索引 期 间 ， 可 继续 为 其 他 客户 端 提供 服务 。 




















18.2.2 ”在 副本 集 上 建立 索引 
在 副本 集 上 建立 索引 最 简单 的 方式 ， 即 在 主 节点 中 建立 索引 ， 然 后 等 待 其 被 复制 到 
其 他 备份 节点 。 在 较 小 的 集合 中 ， 这 一 操作 不 会 造成 太 大 的 影响 。 


如 集合 较 大 ， 则 会 出 现 所 有 备份 节点 同时 开始 建立 索引 的 情况 。 突 然 间 所 有 备份 节 
点 都 无 法 被 客户 端 读 取 了 ， 同 时 可 能 也 无 法 及 时 进行 同步 复制 。 因 此 ， 对 于 较 大 的 
集合 ， 推 荐 采用 的 方式 是 : 


(1) 关闭 一 个 备份 节点 ; 

(2) 将 其 作为 独立 的 而 点 启动 ， 如 第 6 章 描述 的 那样 
(3) 在 这 一 服务 器 上 建立 索引 ， 

(4) 重新 将 其 作为 成 员 加 入 副本 集 ; 

(5) 对 每 个 备份 市 点 执行 同样 的 操作 。 


完成 以 上 操作 后 ， 只 剩 主 市 点 还 没有 建立 索引 。 现 在 有 两 种 选择 。 
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。 于 后 台 在 主 市 点 中 建立 索引 (这 会 对 主 市 点 的 性 能 造成 压力 ) ， 
。 并 执行 以 上 步骤 (D)~(4)， 像 在 备份 节点 中 一 样 ， 在 主 节 点 上 建立 索 
。 该 方式 需 数据 库 停 运 一 次 ， 应 权衡 利 整 进行 选择 。 


也 可 以 使 用 这 种 隔离 创建 技术 ， 在 没有 被 配置 为 建立 索引 的 副本 集 内 的 成 员 上 建立 
索引 ， 即 使 用 了 buiLdIndexes: false 选项。 方法 是 将 其 作为 独立 服务 器 启动 ， 
建立 索引 ， 并 重新 加 入 副本 集 。 


如 果 由 于 某 种 原因 无 法 使 用 以 上 方法 ， 则 需 计 划 在 空闲 时 间 〈 晚 上、 假期、 周末 等 ) 
来 建立 新 的 索引 。 


18.2.3 在 分 片 集群 上 建立 索引 

在 分 片 集群 上 建立 索引 ， 与 在 副本 集中 建立 索引 的 步骤 相同 ， 不 过 需要 在 每 个 分 片 
上 分 别 建立 一 次 。 

首先 ， 关 闭 均衡 器 。 然 后 按照 上 一 节 中 的 步骤 ， 依 次 在 每 一 个 分 片 中 进行 操作 ， 即 
把 每 个 分 片 当 作 一 个 单独 的 副本 集 。 最 后 ， 通 过 mongos 运行 ensureIndex， 并 重 
新 启动 均衡 器 

只 有 在 现存 分 片 中 添加 索引 时 才 需 这 样 做 ， 新 的 分 片 会 在 开始 接收 集合 数据 块 时 抓 
取 集 合 中 的 索引 。 















































18.2.4 删除 索引 

如 不 再 需要 某 索 引 ， 可 使 用 dropIndexes 命令 并 指定 索引 名 来 删除 索引 。 碍 询 
system.indexes 集合 找 出 索引 名 ， 即 使 是 自动 生成 的 索引 名 ， 在 不 同 驱动 器 间 也 会 存 
在 些许 差异 : 








> db.runCommand({"dropIndexes" : "foo", "index" : "alphabet"}) 
只 需 将 "*#" 作为 index 的 值 ， 即 可 删除 一 个 集合 中 的 所 有 索引 : 
> db.runCommand({"dropIndexes" : "foo", "index" : "*"}) 


但 这 种 方法 无 法 删除 id 索引 。 只 有 删除 整个 集合 才能 删除 掉 访 索引。 删除 集合 中 
的 全 部 文档 不 会 对 索引 产生 影响 ， 新 文档 插入 后 索引 仍 可 正常 增加 。 





18.2.5 注意 内 存 浇 出 杀手 
Linux 的 内 存 洲 出 杀手 (OOM Killer，out-of-memory killer) 负责 终止 使 用 过 多 内 存 
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的 进程 。 考 虑 到 MongoDB 使 用 内 存 的 方式 ， 除 了 在 建立 索引 的 情况 下 ， 它 通常 不 
会 遇 到 这 种 问题 。 如 在 建立 索引 时 ，mongod 突然 消失 ， 请 检查 /var/log/messages 文 
件 ， 其 中 记录 了 OOM Killer 的 输出 信息 。 在 后 台 建 立 索 引 或 增加 交换 (swap) 空 
间 可 避免 此 类 情况 。 如 拥有 机 器 的 管理 员 权 限 ， 可 将 MongoDB 设置 为 不 可 被 OOM 
Killer 终止 。 更 多 信息 请 参见 23.5.2 市 。 


18.3 ” 预 执 数据 

重启 机 器 或 启动 一 台新 的 服务 器 ， 会 耗费 一 段 时 间 供 MongoDB 将 所 有 所 需 数据 从 
磁盘 中 载 入 内 存 。 如 对 于 性 能 的 需求 很 高 ， 要 求 数据 必须 出 自 内 存 中 ， 则 将 新 服务 
器 上 线 ， 并 等 待 应 用 程序 载 入 所 有 所 需 数 据 ， 这 会 是 一 项 艰巨 的 工作 。 

有 几 种 方式 可 在 服务 器 正式 上 线 之 前 将 数据 载 入 内 存 ， 以 避免 在 应 用 运行 时 带 来 
有 拉 烦 。 














奢 所 
， 


R 重启 MongoDB 会 改变 内 存 中 的 内 容 。 内 存 是 由 操作 系统 进行 管理 的 ， 而 
心 4. 操作 系统 不 会 将 数据 清除 出 内 存 ， 除 非 有 其 他 程序 需要 使 用 此 段 内 存 空 间 。 
避 ” 因此 ， 如 果 mongod 进程 需要 重启 ， 应 不 会 影响 内 存 中 的 数据 。( 然 而 ， 
mongod 会 报告 较 低 的 常 驻 内 存 值 ， 直 到 它 有 机 会 向 操作 系统 请 求 所 需 的 

数据 。) 




















18.3.1 将 数据 库 移 至 内 存 


如 需 将 数据 库 移 至 内 存 中 ， 可 使 用 UNIX 中 的 dd 工具 ， 从 而 在 启动 mongod 前 载 入 
数据 文件 : 


$ for file in /data/db/brains.* 
> do 

> dd if=$file of=/dev/null 

> done 





将 brains 替换 为 需 载 和 的 数据 库 名 。 


将 /data/db/brains.* 替换 为 /data/db/* 可 将 整个 数据 目录 ( 即 所 有 数据 库 ) 
载 入 内 存 (假设 内 存 容 量 足 够 的 话 )。 如 将 一 个 或 一 组 数据 库 载 入 内 存 ， 需 占用 的 
内 存 又 要 比 实际 内 存 大 的 话 ， 则 其 中 一 些 数据 会 立即 被 清除 出 内 存 。 在 这 种 情况 下 ， 
可 使 用 下 一 节 中 讲 到 的 几 种 方法 ， 以 而 将 特定 的 数据 载 入 内 存 中 。 


mongod 局 动 时 ， 会 向 操作 系统 请 求 数据 文件 。 如 果 操作 系统 发 现 内 存 中 已 经 存在 
了 这 些 数据 文件 ， 就 可 以 立即 访问 此 mongod。 
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而 ， 只 有 在 整个 数据 库 可 以 装 入 内 存 中 时 ， 这 一 技术 才能 发 挥 作 用 。 否 则 ， 可 使 
es 来 进行 更 多 细 粒 度 的 0 预 热 。 


18.3.2 ”将 集合 移 至 内 存 


MongoDB 提供 了 touch 命令 来 预 热 数 据 。 启 动 mongod (也 许 在 另 一 个 端口 上 , 或 
关闭 防火 墙 对 它 的 限制 )， 对 一 个 集合 使 用 touch 命令 ， 从 而 将 其 载 入 内 存 : 








> db.runCommand({"touch" : "logs", "data" : true, "index" : true}) 


一 操作 会 将 logs 集合 中 的 所 有 文档 和 索引 载 入 内 存 。 可 指定 内 存 只 载 入 文档 或 只 
载 入 索引 。touch 操作 结束 后 ， 可 允许 应 用 访问 MongoDB。 


然而 ， 一 整个 集合 (即使 只 有 索引 ) 依然 可 占用 很 大 的 空间 。 例 如 ， 应 用 可 能 只 需 
要 一 个 索引 或 一 小 部 分 文档 在 内 存 中 。 在 这 种 情况 下 ， 需 对 数据 进行 自 定义 预 热 。 





18.3.3 自 定 义 预 热 
如 需 进行 更 复杂 的 预 热 ， 可 自 定义 预 热 脚本 。 以 下 是 一 些 常见 的 预 热 需求 和 解决 
方案 。 
。 加 载 一 个 特定 的 索引 
假设 索引 必须 处 于 内 存 中 ， 如 {"friends"” : 1，"date" : 1}。 可 进行 覆盖 
查询 (covered query， 参 见 5.1.2 节 ) ， 从 而 将 该 索引 载 入 内 存 中 : 
> db.users.find({}, {" id” : 0, "friends" : 1, "date" :; 1}). 
. hint({"friends" : 1, "date" : 1}).explain() 
以 上 explain 命令 会 强制 mongod 遍历 所 有 结果 。 必 须 通 过 find 命令 的 第 二 个 
参数 指定 只 返回 被 索引 字段 ， 否则 这 一 查询 同样 会 将 所 有 文档 加 载 入 内 存 (也 许 
这 就 是 我 们 想 要 的 结果 ， 但 应 注意 这 一 点 )。 注 意 ， 该 操作 总 是 会 把 无 法 被 覆盖 
(covered) 的 文档 和 索引 加 载 入 内 存 ， 如 多 值 索 引 (multikey index ) 。 








。 加 载 最 近 更 新 的 文档 
如 在 更 新 文档 时 同时 更 新 了 日 期 字段 上 的 索引 ， 可 通过 查询 最 近日 期 来 加 载 最 近 
更 新 的 文档 。 


如 没有 日 期 字段 上 的 索引 ， 查 询 后 会 将 集合 中 的 所 有 文档 加 载 和 内存， 所 以 就 不 
必 使 用 此 方法 了 。 在 缺少 日 期 字段 的 情况 下 ， 如 主要 关心 的 是 最 近 播 入 的 文档 ， 
可 使 用 _id 字段 作为 替代 (参见 下 列 内 容 )。 
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加 载 最 近 创 建 的 文档 
如 _id 字段 使 用 0bjectIdsIf 类 型 ， 则 可 利用 最 近 创 建文 档 内 的 时 间 惟 进行 文 
档 查 询 。 如 希望 查找 上 星期 建立 的 所 有 文档 ， 可 建立 一 个 比 所 有 要 查找 的 文档 建 
立时 间 都 要 早 的 _id: 








> Lastweek = (new Date(year, month, day)).getTime()/1000 
1348113600 














将 year、month 和 date 进行 适当 替换 ， 返 回 的 结果 是 以 秒 为 单位 的 日 期 值 。 
在 需要 使 用 此 日 期 建立 一 个 0bjectId ee 首先 ， 将 其 转换 成 一 ss 
制 字符 串 ， 然 后 在 后 面 加 上 16 个 0: 











> hexSecs = lastWeek.toString(16) 

505a94c0 

> minId = ObjectId(hexSecs+"0000000000000000") 
ObjectId("505a94c00000000000000000") 


现在 只 需 对 其 进行 查询 : 

> db.logs.find({" id" : {"$gt" : minId}}).explain() 
该 操作 会 加 载 自 上 星期 以 来 的 所 有 文档 (以 及 _id 索引 的 一 部 分 右 子 树 ) 。 
重 放 应 用 使 用 记录 
MongoDB 提供 有 名 为 诊断 日 志 (diaglog，diagnostic log) 的 功能 来 记录 和 回放 
操作 流水 。 启 用 诊断 日 志 会 造成 性 能 损失 ， 所 以 最 好 通过 临时 使 用 的 方式 来 获得 
一 份 “ 有 代表 性 ”的 操作 流水 。 在 mongo shell 中 运行 以 下 命令 来 记录 操作 流水 : 





> db.adminCommand({"diagLogging" : 2}) 


其 中 参数 值 为 2 意味 着 记录 读 取 操作 。 该 值 为 1 时 会 记录 写 入 操作 ， 为 3 时 读 写 
都 会 进行 记录 (默认 值 为 0， 意 味 着 不 进行 记录 )。 我 们 可 能 不 希望 记录 写 和 人 操 
作 ， 因 为 在 重 放 操 作 流 水 时 ， 该 操作 会 导致 新 成 员 产 生 额 外 写 入 。 


现在 让 mongod 运行 所 需 的 时 间 并 向 其 发 送 请 求 ， 从 而 令 诊断 日 志 记 录 操 作 流 
水 。 读 取 操 作 会 被 存放 在 诊断 日 志 生成 的 文件 中 ， 该 文件 位 于 数据 目录 下 。 完 成 
后 将 diagLogging 的 值 重 设 为 0: 





> db.adminCommand({"diagLogging" : 0}) 





要 想 使 用 诊断 文件 ， 可 从 该 文件 所 在 的 服务 器 启动 新 的 服务 器 ， 运 行 以 下 命令 : 





$ nc hostname 27017 < /data/db/diaglog* | hexdump -c 
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按 需 对 其 中 的 IP 地址 、 端 口 和 数据 目录 进行 替换 。 以 上 命令 会 将 诊断 文件 中 记 
录 的 操作 作为 普通 请 求 发 送 到 hostname:27017 处 。 


注意 ， 诊 断 日 志 会 记录 开局 诊断 日 志 的 命令 ， 所 以 ， 重 放 完 成 后 ， 需 登录 服务 器 
并 关闭 诊断 日 志 (我 们 可 能 也 想 删 除 从 重 放 中 生成 的 诊断 文件 )。 


这 些 技 术 可 结合 起 来 使 用 。 例 如 ， 可 在 重 放 诊断 记录 的 同时 加 载 若干 索引 ; 如 果 没 
有 遇 到 磁盘 IO 瓶颈 的 话 ， 也 可 以 同时 进行 这 些 操作 ， 或 者 也 可 以 通过 多 个 shell 或 
者 startParallelShell (启动 并 行 shell) 命令 (如果 shell 在 mongod 本 地 的 话 ) 
来 进行 操作 : 

















> pl = startParaLLeLSheLL("db.Nnd({}， {x:1}+).hint({x:1}).expLain()"，port) 
> p2 = startParallelShell ("db.Nnd({}, {y:1}) .hint({y:1}).explain()", port) 
> p3 = startParallelShell ("db.Nnd({}, {2z:1}) .hint({z:1}).explain()", port) 


将 port 替换 为 mongod 所 在 的 端口 值 。 


18.4 压缩 数据 

MongoDB 会 占用 大 量 的 磁盘 空间 。 有 了 时， 大 量 数据 被 删除 或 更 新 后 ， 会 在 集合 中 
产生 碎片 。 如 数据 文件 中 有 很 多 空闲 空间 ， 但 由 于 这 些 独立 的 空闲 区 块 过 小 ， 从 而 
使 得 MongoDB 无 法 对 其 进行 重新 利用 时 ， 就 产生 了 碎片 。 在 这 种 情况 下 ， 会 在 日 
志 中 看 到 类 似 如 下 信息 : 


Fri Oct 7 06:15:03 [conn2] info DFM::NndAll(): extent 0:3000 was empty, 
skipping ahead. ns:bar.foo 











该 信息 本 身 是 无 害 的。 然而 ， 这 意味 着 某 一 整个 区 段 (extent) 中 不 包含 任何 文档 。 
为 消除 空 区 段 ， 并 高 效 重 整 集合 ， 可 使 用 compact 命令 : 


> db.runCommand({"compact" : "collName"}) 


压缩 操作 会 消耗 大 量 资 源 ， 不 应 在 mongod 向 客户 端 提供 服务 时 计划 压缩 操作 。 推 
荐 做 法 类 似 于 建立 索引 时 的 做 法 ， 即 在 每 个 备份 三 点 中 对 数据 执行 压缩 操作 ， 然 后 
关闭 主 亨 点 ， 进 行 最 后 的 压缩 操作 。 


在 一 个 备份 节点 中 运行 压缩 操作 ， 会 使 其 进入 恢复 状态 (recovering state) ， 即 它 会 
对 读 取 请 求 返 回 错 误 ， 亦 无 法 作为 一 个 同步 产 。 压 缩 操 作 结 束 后 ， 其 状态 会 重新 变 
为 备份 节点 (secondary state ) 。 


压缩 操作 会 将 文档 尽 可 能 地 安排 在 一 起 ， 文 档 间 的 间隔 参数 默认 为 1。 如 需 更 大 的 
间隔 参数 ， 可 使 用 额外 的 参数 来 指定 它 : 
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> db.runCommand({"compact" : "collName", "paddingFactor" :; 1.5}) 


间隔 参数 最 小 为 1， 最 大 为 4。 对 间隔 参数 的 设 定 不 会 持续 生效 ， 只 会 影响 压缩 过 程 
中 MongoDB 重新 安排 文档 时 的 间隔 。 压 缩 完 成 后 ， 间 隔 参 数 会 重新 返回 之 前 的 值 。 


压缩 操作 并 不 会 减少 集合 占用 的 磁盘 空间 ， 该 操作 只 是 将 所 有 文档 都 安排 在 集合 的 
开始 部 分 ， 这 样 当 集合 继续 增 大 时 就 可 以 使 用 后 面 的 空余 部 分 。 因 此 ， 压 缩 操作 只 
是 在 磁盘 空间 不 足 时 的 临时 措施 ， 它 不 会 减少 MongoDB 所 使 用 的 磁盘 空间 大 小 ， 
但 可 使 MongoDB 不 再 需要 分 配 新 的 空间 。 


可 通过 运行 repair (修复 ) 命令 来 回收 磁盘 空间 。repair 命令 会 对 所 有 数据 进行 
复制 ， 所 以 必须 拥有 和 当前 数据 文件 一 样 大 小 的 空余 磁盘 空间 。 这 时 常 是 个 大 问题 ， 
因为 运行 repair 的 最 常见 原因 就 是 机 器 的 磁盘 空间 不 多 了 。 然 而 ， 如 能 挂 载 其 他 
磁盘 ， 则 可 指定 一 个 修复 路 径 ， 即 repair 命令 复制 文件 时 所 使 用 的 目录 (新 安装 
的 驱动 ) 。 


由 于 repair 操作 会 完全 复制 所 有 数据 ， 因 此 可 随时 中 断 该 操作 而 不 影响 原始 数据 
集 。 如 在 repair 操作 的 过 程 中 遇 到 问题 ， 可 删除 repair 产生 的 临时 文件 而 不 会 
影响 到 数据 文件 。 

在 启动 mongod 时 使 用 - -repair 选项 (如 需要 ， 还 可 使 用 --repairpath 选项 ) 
来 进行 修复 。 


可 以 在 shell 中 调用 db.repairDatabase() 来 修复 数据 库 。 


18.5 ”移动 集合 

可 使 用 renameCollection 命令 来 重 命名 集合 。 这 一 命令 无 法 在 数据 库 间 移动 集 
合 ， 但 可 更 改 集合 名 。 无 论 重 命名 的 集合 大 小 ， 该 操作 都 基本 上 是 瞬间 完成 的 。 在 繁 
忙 的 系统 上 ， 这 一 操作 会 耗费 几 秒 钟 ， 但 在 生产 环境 中 运行 可 不 用 担心 性 能 的 消耗 。 


























> db.sourceColl.renameCollection("newName") 


执行 这 一 命令 时 可 传人 第 二 个 参数 ， 从 而 决定 当 名 为 newName 的 集合 已 经 存在 时 应 
如 何 处 理 。 该 参数 为 true 时 ， 会 删除 名 为 newName 的 集合 ; 为 false 时 ， 则 会 抛 
出 错误 。 后 者 是 这 一 参数 的 默认 值 。 


要 想 在 数据 库 间 移动 集合 ， 必 须 进行 转 储 (dump) 和 恢复 (restore) 操作 ， 或 手动 
复制 集合 中 的 文档 (使 用 find 命令 ， 遍 历 集合 中 的 所 有 文档 ， 从 而 将 其 插入 到 新 
的 数据 库 中 ) 。 
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可 使 用 cLoneCoLLection 命令 将 一 个 集合 移动 到 另 一 个 不 同 的 mongod 中 。 


> db.runCommand({"cloneCollection" : "collName", "from" : "hostname:27017"}) 





无 法 使 用 cLoneCoLLection 命令 在 mongod 中 移动 集合 ， 这 一 命令 只 能 用 于 服务 
器 间 的 集合 移动 。 


18.6 预 分 配 数据 文件 


如 知道 mongod 具体 需要 哪些 数据 文件 ， 可 运行 以 下 脚本 ， 从 而 在 应 用 上 线 前 预 分 
配 数 据 文件 。 如 能 确定 数据 库 和 操作 记录 的 大 小 ， 至 少 是 一 段 时 间 以 内 的 大 小 ， 这 
一 方法 则 尤其 有 用 。 


#!/bin/bash 


# 确保 传人 数据 库 名 
if test $# -lt 2 || test $# -gt 3 
then 

echo "$0 <db> <number-of-files>" 
fi 


db=$1 
num=$2 


for i in {0..$num} 
do 

echo "Preallocating $db.$i" 

head -c 2146435072 /dev/zero > $db.$i 
done 


将 以 上 代码 存 入 一 个 文件 中 (比如 说 preallocate 文件 )， 并 将 文件 设置 为 可 执行 文 
件 。 切 换 至 数据 目录 ， 按 需 执 行 以 下 脚本 ， 分 配 数据 文件 : 


$# create test.0-test.100 
$ preallocate test 100 

$ 

$# create local.0-local.4 
$ preallocate local 4 





数据 库 启动 后 首次 访问 数据 文件 时 ， 不 能 对 其 中 的 任何 文件 进行 删除 。 例 如 ， 如 分 
配 数据 文件 test.0~test.100， 而 启动 数据 库 后 却 发 现 只 需 使 用 test.0~test.20， 这 时 我 
们 不 应 删除 test.21~test.100 的 文件 。 只 要 MongoDB 意识 到 这 些 文件 的 存在 ， 文 件 
删除 后 则 会 导致 MongoDB 发 生 异 常 。 
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第 19 章 


持久 性 





持久 性 (durability) 是 操作 被 提交 后 可 持久 保存 在 数据 库 中 的 保证 。 从 完全 没有 保 
障 到 完全 保证 持久 性 ，MongoDB 可 高 度 配 置 与 持久 性 相关 的 设 定 。 本 章 内 容 包括 : 





。 MongoDB 如 何 保证 持久 性 ， 

。 如 何 配置 应 用 和 服务 器 ， 从 而 获得 所 需 的 持久 性 级 别 ; 

。 运行 时 关闭 日 记 系 统 (journaling) 可 能 带 来 的 问题 ， 

。 MongoDB 不 能 保证 的 事项 。 

如 磁盘 和 软件 运行 正常 ， 则 MongoDB 能 够 在 系统 崩溃 或 强制 关闭 后 ， 确 保 数 据 的 
完整 性 。 


注意 ， 关 系 型 数据 库 通常 使 用 持久 性 一 词 来 描述 数据 库 事务 (transaction) 的 持久 保 
存 。 由 于 MongoDB 并 不 支持 事务 ， 因 此 该 词义 在 这 里 有 些许 不 同 。 


19.1 日 记 系统 的 用 途 

MongoDB 会 在 进行 写 入 时 建立 一 条 日 志 (journal) 日 记 中 包含 了 此 次 写 入 操作 具 
体 更 改 的 磁盘 地 址 和 字 节 。 因 此 ,一 旦 服务 器 突然 停机 ， 可 在 启动 时 对 日 记 进 行 重 
放 (replay)， 从 而 重新 执行 那些 停机 前 没 能 够 刷新 (flush) 到 磁盘 的 写 入 操作 。 























数据 文件 默认 每 60 秒 刷 新 到 磁盘 一 次 ， 因 此 日 记 文 件 只 需 记 录 约 60 秒 的 写 入 数据 。 
日 记 系 统 为 此 预先 分 配 了 若干 个 空 文件 ， 这 些 文件 存放 在 /data/db/journal 目录 中 ， 
文件 名 为 _j.0、_j.1 等 。 
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长 时 间 运 行 MongoDB 后 ， 日 记 目 录 中 会 出 现 类 似 _j.6217、_j.6218 和 _j.6219 的 文 
件 。 这 些 是 当前 的 日 记 文 件 。 文 件 名 中 的 数字 会 随 着 MongoDB 运行 时 间 的 增长 而 
增 大 。 数 据 库 正常 关闭 后 ， 日 记 文 件 则 会 被 清除 (因为 正常 关闭 后 就 不 再 需要 这 些 
文件 了 )。 


如 发 生 系统 月 涡 ， 或 使 用 kiLL -9 命令 强制 终止 数据 库 的 运行 ，mongod 会 在 启动 
时 重 放 日 记 文件 ， 同 时 会 显示 出 大 量 的 校 验 信息 。 这 些 信 息 匈 长 且 难 懂 ， 但 其 存在 
说 明 一 切 都 在 正常 运行 。 可 在 开发 时 运行 kill -9 命令 来 终止 mongod 进程 并 重新 
启动 ， 这 样 在 生产 环境 中 ， 如 果 发 生 相 同 状况 ， 也 会 明白 此 时 显示 哪些 信息 是 正 
常 的 。 








19.1.1 批量 提交 写 入 操作 

MongoDB 默认 每 隔 100 毫秒 ， 或 是 写 人 数据 达到 若干 兆 字 节 时 ， 便 会 将 这 些 操作 
写 入 日记 。 这 意味 着 MongoDB 会 成 批量 地 提交 更 改 ， 即 每 次 写 入 不 会 立即 刷新 到 
磁盘 。 不 过 在 默认 设置 下 ， 系 统 发 生 崩 江上 时 ， 不 可 能 丢失 间隔 超过 100 毫秒 的 写 入 
数据 。 

然而 ， 对 于 一 些 应 用 而 言 ， 这 一 保障 还 不 够 牢固 ， 因 此 可 通过 若干 方式 来 狭 得 更 强 
有 力 的 持久 性 保证 。 可 通过 向 getLastError 传递 j 选项 ， 来 确保 写 入 操作 的 成 
功 。getLastError 会 等 待 前 一 次 写 入 操作 写 和 到 日 记 中 ， 而 日 记 在 下 一 批 操作 写 
入 前 ， 只 会 等 待 30 毫秒 (而 非 100 毫秒 ) : 




















> db.foo.insert({"x" : 1}) 
> db.runCommand({"getLastError" : 1, "j" : true}) 
> // The {"x"” : 1} document is now safely on disk (文档 现 已 安全 保存 在 磁盘 上 ) 


注意 ， 这 意味 着 如 果 在 每 次 写 入 操作 中 都 使 用 了 "j" : true 选项 ， 则 写 入 速度 实 
际 上 会 被 限制 为 每 秒 33 次 : 





(1 次 /30 毫秒 ) x (1000 毫秒 / 秒 ) = 33.3 次 / 秒 


通常 将 数据 刷新 到 磁盘 并 不 会 耗费 这 么 长 时 间 ， 所 以 如 果 允 许 MongoDB 对 大 部 分 
数据 进行 批量 写 入 而 非 每 次 都 单独 提交 ， 数 据 库 的 性 能 则 会 更 好 。 然 而 ， 重 要 的 写 
入 操作 还 是 会 经 常 选用 此 选项 。 


提交 一 次 写 入 操作 ， 会 同时 提交 这 之 前 的 所 有 写 入 操作 。 因 此 ， 如 果 有 50 个 重要 的 
写 入 操作 ， 可 使 用 “普通 的 ”getLastError (不 包括 j 选项 )， 而 在 最 后 一 次 写 入 
后 使 用 含有 j 选项 的 getLastError。 如 果 成 功 的 话 ， 就 可 知道 所 有 50 次 写 入 操作 
都 已 安全 刷新 到 磁盘 上 。 
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如 果 写 入 操作 含有 很 多 连接 ， 可 通过 并 发 写 入 ， 来 减少 使 用 j 选项 所 带 来 的 速度 开 
销 。 此 种 做 法 可 增加 数据 吞吐 量 ， 但 也 会 增加 延迟 。 





\ 几 一 一 一 ~ 3 
19.1.2 ” 设 定 提交 时 间 间 隔 
另 一 个 减少 日 记 被 干扰 几率 的 选项 是 ， 调 整 两 次 提交 间 的 时 间 间 隔 。 返 行 
setParameter 命令 ， 设 定 journalCommitInterval 的 值 (最 小 为 2 毫秒 ， 最 大 
为 500 毫秒 ) 。 以 下 命令 使 得 MongoDB 每 隔 10 毫秒 便 将 数据 提交 到 日 记 中 一 次 : 
> db.adminCommand({"setParameter" : 1, "journalCommitInterval" : 10}) 


也 可 使 用 命令 行 选项 - -journalCommitInterval 来 设 定 这 一 值 。 


无 论 时 间 间 隔 设置 为 多 少 ， 使 用 带 有 "j" : true 的 getLastError 命令 都 会 将 该 
值 减 少 到 原来 的 三 分 之 一 。 


如 客户 端的 写 入 速度 超过 了 日 记 的 刷新 速度 ，mongod 则 会 限制 写 入 操作 ， 直 到 日 
记 完 成 到 磁盘 的 写 入 。 这 是 mongod 会 限制 写 入 的 唯一 情况 。 


19.2 关闭 日 记 系 统 


对 于 所 有 生产 环境 的 部 署 ， 都 推荐 使 用 日 记 系 统 ， 但 有 时 我 们 可 能 需要 关闭 该 系统 。 
即使 不 附带 j 选项 ,日 记 系 统 也 会 影响 MongoDB 的 写 入 速度 。 如 果 写 入 数据 的 价 
值 不 及 写 人 速度 降低 带 来 的 损失 ， 我 们 可 能 就 会 想 要 禁用 日 记 系 统 。 


禁用 日 记 系统 的 缺陷 在 于 ，MongoDB 无 法 保证 发 生 崩溃 后 数据 的 完整 性 。 在 没有 
日 记 系 统 的 前 提 下 ， 一 旦 发 生 崩 涡 ， 那 么 数据 肯定 会 遭 到 损坏 ， 从 而 需要 对 数据 进 
行 修复 或 灰 换 。 这 种 情况 下 遭 到 损坏 的 数据 不 应 继续 投入 使 有 用， 除非 我 们 不 在 乎 数 
据 库 会 突然 停止 工作 。 






































如 果 和 希望 数据 库 在 崩溃 后 能 够 继续 工作 ， 有 以 下 几 种 做 法 。 


19.2.1 替换 数据 文件 

这 是 最 佳 选 择 。 删 除数 据 目录 中 的 所 有 文件 ， 然 后 获取 新 文件 ， 可 从 备份 中 恢复 ， 
使 用 确保 正确 的 数据 库 快 照 ， 如 果 是 副本 集成 员 的 话 ， 也 可 对 其 进行 初始 化 同步 。 
如 果 是 一 个 数据 量 较 小 的 副本 集 ， 重 新 同步 可 能 是 最 好 的 选择 ， 即 先 停 止 此 成 员 
的 运行 (如 果 它 还 没有 停止 运行 的 话 ) ， 删 除数 据 目 录 中 的 所 有 内 容 ， 然 后 重新 启 
动 它 。 
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19.2.2 ”修复 数据 文件 

如 果 既 没有 备份 和 复制 ， 也 没有 副本 集中 的 其 他 成 员 ， 则 需 抢救 所 有 可 能 的 数据 。 
需 对 数据 库 使 用 一 个 ”修复 “工具 ， 修 复 实质 上 是 删除 所 有 受 损 数据 ， 不 过 可 能 不 
会 留 有 太 多 完好 的 数据 。 

mongod 自 带 了 两 种 修复 工具 ， 一 种 是 mongod 内 置 的 ， 另 一 种 是 mongodump 内 置 
的 。mongodump 的 修复 更 加 接近 底层 ， 可 能 会 找到 更 多 的 数据 ， 但 耗 时 要 更 长 (而 
另 一 种 自 带 的 修复 方式 也 不 见得 很 快 )。 另 外 ， 如 使 用 mongodump 的 修复 ， 在 准备 
再 次 启动 前 ， 依 然 需 要 恢复 数据 的 操作 。 


因此 ， 应 根据 愿意 在 数据 恢复 中 消耗 的 时 间 长 短 来 进行 决定 。 


要 使 用 mongod 内 置 的 修复 工具 ， 需 附带 - - repair 选项 运行 mongod: 




















$ mongod --dbpath /path/to/corrupt/data --repair 





进行 修复 时 ，MongoDB 不 会 开启 27017 端口 的 监听 ， 但 我 们 可 通过 查看 日 志 (log) 
的 方式 得 知 它 正 在 做 什么 。 注 意 ， 修 复 过 程 会 对 数据 进行 一 份 完整 的 复制 ， 所 以 如 
有 80 GB 的 数据 ， 则 需 80 GB 的 空闲 磁盘 空间 。 为 尽量 解决 这 一 问题 ， 修 复工 具 提 
供 了 --repairpath 选项 。 这 一 选项 允许 在 主 磁盘 空间 不 足 时 挂 载 一 个 “紧急 驱动 
器 *"， 并 使 用 它 来 进行 修复 操作 。- - repairpath 选项 的 用 法 如 下 : 

















$ mongod --dbpath /path/to/corrupt/data \ 
> --repair --repairpath /media/external-hd/data/db 





如 果 修 复 过 程 被 强行 终止 ， 或 者 出 现 故 障 (如 磁盘 空间 不 足 )， 至 少 不 会 使 情况 变 得 
更 糟 。 修 复工 具 将 所 有 的 输出 都 写 入 新 的 文件 中 ， 不 会 对 原 有 文件 进行 修改 。 因 此 
原始 数据 文件 不 会 比 开始 修复 时 变 得 更 糟 。 


另 一 个 选择 是 使 用 mongodump 的 --repair 选项 ， 就 像 这 样 : 





$ mongodump --repair 


这 些 选 择 都 不 是 特别 好 ， 但 它们 应 该 可 以 让 mongod 重新 运行 在 一 个 干净 的 数据 
集 上 。 


19.2.3 关于 mongod.lock 文 件 


数据 目录 中 有 一 个 名 为 mongod.lock 的 特殊 文件 。 该 文件 在 关闭 日 记 系 统 运 行 时 十 
分 重要 (如 启用 了 日 记 系 统 ， 则 这 一 文件 不 会 出 现 )。 
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当 mongod 正常 退出 时 ， 会 清除 mongod.lock 文件 ， 这 样 在 启动 时 ，mongod 就 会 得 
知 上 一 次 是 正常 退出 的 。 相 反 ， 如 果 该 文件 没 被 清除 ，mongod 就 会 得 知 上 一 次 是 
异常 退出 的 。 


如 果 mongod 监测 到 上 一 次 是 异常 退出 的 ， 则 会 禁止 再 启动 ， 这 样 我 们 就 会 意识 到 
一 份 干净 数据 副本 的 需求 。 然 而 ， 有 些 人 意识 到 可 通过 删除 mongod.lock 文件 来 局 
动 mongod。 请 不 要 这 么 做 。 通 常 ， 在 启动 时 删除 这 一 文件 ， 意 味 着 我 们 不 知道 也 
不 在 乎 数据 是 否 受 损 。 除 非 如 此 ， 否 则 请 不 要 这 么 做 。 如 果 mongod.lock 文件 阻止 
了 mongod 的 启动 ， 请 对 数据 进行 修复 ， 而 非 删除 该 文件 。 




















19.2.4 隐蔽 的 异常 退出 

不 要 删除 锁 文 件 的 另 一 重要 原因 在 于 ， 我 们 甚至 可 能 意识 不 到 这 是 一 次 异常 退出 。 
假设 我 们 需要 重启 机 器 进行 例 行 维护 。 初 始 化 脚本 应 负责 在 服务 器 关闭 之 前 关闭 
mongod。 初 始 化 脚本 通常 会 先 尝试 正常 关闭 程序 ， 但 如 在 车 干 秒 后 依然 没有 关闭 的 
话 ， 则 会 选择 强行 关闭 。 在 一 个 繁忙 的 系统 上 ，MongoDB 完全 可 能 耗费 30 秒 来 结 
束 运行 ， 正常 的 初始 化 脚本 不 会 等 待 它 正常 关闭 。 因 此 ， 异 常人 退出 的 次 数 可 能 比 我 
们 知道 的 要 多 得 多 。 


19.3 ” MongoDB 无 法 保证 的 事项 
在 硬件 或 文件 系统 出 现 故 障 等 情况 下 ，MongoDB 无 法 保证 操作 的 持久 性 。 尤 其 是 
在 硬盘 发 生 损坏 的 情况 下 ，MongoDB 根本 无 法 保证 数据 安全 。 


另外 ,不同 的 硬件 和 软件 对 于 持久 性 的 保障 可 能 有 所 不 同 。 例 如 ， 一 些 破旧 的 硬盘 
会 在 写 入 操作 还 在 列队 中 等 待 之 际 ， 便 报告 称 写 和 成功 。MongoDB 无 法 防止 这 一 
层次 的 误 报 ， 如 果 此 时 系统 崩溃 ， 数 据 就 可 能 会 发 生 丢 失 。 

基本 上 ，MongoDB 的 安全 性 与 其 所 基于 的 系统 相同 ，MongoDB 无 法 避免 硬件 或 文 
件 系统 导致 的 数据 损坏 。 可 使 用 副本 应 对 系统 问题 。 如 果 一 台 机 器 发 生 了 故障 ， 还 
有 另 一 台 在 正常 工作 。 


19.4 ”检验 数据 损坏 


可 使 用 validate 命令 ,检验 集合 是 否 有 损坏 。 如 检验 名 为 foo 的 集合 ， 代 码 如 下 : 
































> db.foo.validate() 
{ 


"ms" 2 "test.fo0", 
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"firstExtent" : 
"lastExtent" : 
"extentCount" : 
: 75960008, 
: 1000000, 
"lastExtentSize" 


"datasize" 
"nrecords" 


11, 


"padding" : 1, 
"firstExtentDetails" : { 


"loc™ en 
"xnext" : 
"xprev" 


"nsdiag" : 
: 8192, 
"firstRecord" : 
"lastRecord" : 


"size" 


}, 
"deletedCount 
"deletedSize" 
"nIndexes" 


0:2000", 

"0:f000", 

"null", 
"test.foo", 


"0:3fa0" 


“9 
: 31974824, 


0 


"keysPerIndex" : { 


"test,.foo.$ id " : 
"test,.foo.$str 1": 


}, 

"valid" : tru 
"errors" : [ 
"warning" : 


e, 


]， 


: 37625856, 


"0:20b0", 


1000000， 
1000000 


"0:2000 ns:test.foo", 
"1:3eae000 ns:test.foo", 


"Some checks omitted for speed. use {full:true} 


option to do more thorough scan.", 


"ok" :1 





需 重点 注意 的 是 结尾 附近 的 vatid 字段 ， 字 段 值 为 true。 否 则 ， 输 出 内 容 中 会 包 
含 找到 的 数据 损坏 细节 。 





输 昌 





上 中 的 天 部 分 内 容 ， 是 有 关 集 合 的 内 部 结构 信息 ， 于 调试 而 言 没有 太 大 用 处 。 更 


多 有 关 集 合 内 部 结构 的 内 容 ， 请 参见 附录 B。 


。 firstExtent ( 首 区 段 ) 


该 集合 首 





区 段 (extent) 的 磁盘 偏 移 


耳 


| 


量 (disk offset)。 本 例 中 位 于 文件 test.0 处 ， 





字 节 偏 移 量 (byte offset) 为 0x2000。 


。 LastExtent ( 尾 区 段 ) 


该 集合 尾 





。 extentCount 


该 集合 所 占 区 段 数 量 。 


。 lastExtentSize 


最 近 分 配 





区 段 的 偏 移 量 。 





本 例 中 位 于 文件 test.1 处 ， 字 节 偏 移 量 为 0x3eae000。 


区 段 的 字 市 数量 。 区 段 大 小 随 集 合 的 增长 而 增长 ， 最 大 可 达 2 GB。 





。 firstExtentDetails 
描述 集合 中 首 区 段 的 子 对 象 。 其 中 包含 指向 相 邻 两 个 区 段 的 指针 〈xnext 和 
xprev)、 区 段 的 大 小 (注意 ， 它 比 尾 区 段 要 小 得 多 ， 通 常 首 区 段 是 很 小 的 ) ， 以 
及 指向 区 段 中 第 一 条 和 最 后 一 条 记录 (record) 的 指针 。 记 录 是 真正 承载 着 文档 
的 结构 。 


























。 deletedCount 
该 集合 从 存在 至 今 xx 共 删 除 的 文档 数 目 o 








。 deletedSize 
该 集合 中 空闲 列表 (free list) ， 即 所 有 有 效 空余 空间 的 大 小 。 不 仅 包 括 被 删除 文 
档 所 占 的 空间 ， 还 包括 已 被 预 分 配给 该 集合 的 空间 。 


validate 命令 只 适用 于 集合 ， 而 不 适用 于 索引 。 | 
被 损坏 ， 除 非 遍历 检查 一 遍 ， 即 查 询 每 个 索引 在 集合 中 对 应 的 文档 . 通过 遍历 得 出 
的 结果 即 可 判断 索引 是 否 被 损坏 。 


如 果 程 序 提示 了 非法 的 BSON 对 象 (invalid BSONObj) ， 一 般 说 明 数 据 损 坏 了 。 最 
糟糕 的 错误 则 是 提 到 了 pdfile 的 错误 。pdfile 可 以 说 是 MongoDB 的 数据 存储 核 
心 ， 源 于 pdfile 的 错误 基本 说 明 数 据 文件 已 经 损坏 了 。 

如 果 遇 到 了 数据 损坏 ， 则 可 在 日 志 中 看 到 类 似 如 下 内 容 : 


Tue Dec 20 01:12:09 [initandListen] Assertion: 10334: 
Invalid BSONObj size: 285213831 (0x87040011) 
first element: id: 0bjectId('4e5efa454b4ae20fa6000013 ' ) 


如 果 显 示 的 第 一 个 元 素 已 经 被 废弃 ， 就 没什么 可 做 的 了 。 如 果 第 一 个 元 素 还 是 可 见 
的 (如 上 例 中 的 0bjectId)， 也 许可 删除 损坏 文档 。 可 尝试 运行 : 











> db.remove({ id: ObjectId('4eS5efa454b4ae20fa6000013')}) 


将 其 中 的 _id 替换 为 日 志 中 看 到 的 对 应 _id。 注 意 ， 如 果 数 据 损坏 影响 的 不 只 是 该 
文档 ， 则 这 种 技术 可 能 不 会 奏效 。 这 种 情况 下 ， 我 们 可 能 仍 需 对 数据 进行 修复 。 


19.5 副本 集中 的 持久 性 

第 10 章 曾 讨论 过 副本 集中 的 投票 问题 ， 即 一 次 对 副本 集 的 写 入 操作 ， 在 写 入 副本 集 
中 的 大 多 数 成 员 中 之 前 ， 可 能 先 会 进行 回 深 (rollback)。 可 将 与 此 相关 的 选项 和 之 
前 提 到 的 日 记 系 统 的 选项 结合 起 来 使 用 : 








> db.runCommand({"getLastError" : 1, "j" : true, "w" : "majority"}) 
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进行 这 一 操作 后 ， 可 保证 写 入 操作 写 入 到 了 主 节 点 和 备份 节点 中 ， 其 中 只 有 对 主 节 
点 的 写 入 可 保证 持久 性 。 理 论 上 来 讲 ， 在 进行 写 入 到 记录 到 日 记 内 的 100 毫秒 时 间 
内 ， 多 数 的 服务 器 同时 崩溃 也 是 有 可 能 的 ， 这 种 情况 下 数据 库 会 回 深 到 当前 主 节点 
的 状态 。 虽 然 这 是 一 种 极端 情况 ， 但 也 说 明 其 并 非 是 遗憾 的 是 要 解决 这 一 
问题 并 不 简单 ， 但 目前 MongoDB 社区 正 尝试 改变 这 一 情 
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第 六 部 分 





服务 器 管理 


第 20 章 


启动 和 停止 MongoDB 





我 们 在 第 2 章 中 学 习 了 有 关 启 动 MongoDB 的 基本 命令 。 本 章 我 们 将 就 生产 环境 中 
配置 MongoDB 的 重要 选项 展开 深入 的 学 习 ， 内 容 包 括 : 








. 常用 选项 ; 

。 启动 和 停止 MongoDB 
。 安全 相关 选项 ; 

。 使 用 日 志 时 的 注意 事项 。 


20.1 从 命令 行 启动 


执行 mongod 程序 即 可 启动 MongoDB 服务 器 ，mongod 在 启动 时 可 使 用 许多 可 配置 
选项 ， 在 命令 行 中 运行 mongod --help 可 列 出 这 些 选项 。 下 列 选项 十 分 常用 ， 需 


。 --dbpath 
使 用 此 选项 可 指定 一 个 目录 为 数据 目录 。 其 默认 值 为 /data/db/ (在 Windows 中 则 
为 MongoDB 可 执行 文件 所 在 磁盘 卷 中 的 \data\db 目录 )。 机 器 上 的 每 个 mongod 
进程 都 需要 属于 自己 的 数据 目录 ， 即 者 在 同一 机 器 上 运行 三 个 mongod 实例 ， 则 
需 三 个 独立 的 数据 目录 。mongod 启动 时 ， 会 在 其 数据 目录 中 创建 一 个 mongod. 
lock 文件 ， 以 阻止 其 他 mongod 进程 使 用 此 数据 目录 。 若 尝试 启动 男 一 个 使 用 相 
同 数据 目录 的 MongoDB 服务 器 ， 则 会 出 现 错误 提示 : 


"Unable to acquire Lock for lockfilepath: /data/db/mongod.lock." 
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--port 

此 选项 用 以 指定 服务 器 监听 的 端口 号 。mongod 默认 占用 27017 端口 ， 除 其 他 
mongod 进程 外 ， 其 余 程 序 不 会 使 用 此 端口 。 若 要 在 同一 机 器 上 运行 多 个 mongod 
进程 ， 则 需 为 它们 指定 不 同 的 端口 。 若 尝试 在 已 被 占用 的 端口 启动 mongod， 则 
会 出 现 错误 提示 : 





"Address already in use for socket: 0.0.0.0:27017" 


--fork 
启用 此 选项 以 调用 fork 创建 子 进 程 ， 在 后 台 运 行 MongoDB。 


首次 启动 mongod 而 数据 目录 为 空 时 ， 文 件 系 统 需 儿 分 钟 时 间 分 配 数 据 库 文件 。 
预 分 配 结束 ，mongod 可 接收 连接 后 ， 父 进程 才 会 继续 运行 。 因 此 ，fork 可 能 
会 发 生 挂 起 。 可 查看 日 志 中 的 最 新 记录 得 知 正在 进行 的 操作 。 启 用 - -fork 选项 
时 ， 必 须 同时 启用 - -Logpath 选项 。 





- -logpath 

使 用 此 选项 ， 所 有 输出 信息 会 被 发 送 至 指定 文件 ， 而 非 在 命令 行 上 输出 。 假 设 我 
们 拥有 该 目录 的 写 权限 ， 若 指定 文件 不 存在 ， 启 用 该 选项 后 则 会 自动 生成 一 个 文 
件 。 若 指定 日 志文 件 已 存在 ， 选 项 启用 后 则 会 覆盖 掉 该 文件 ， 并 清除 所 有 旧 的 日 
志 条 目 。 如 需 保 留 旧 日 志 ， 除 - -Logpath 选项 外 ， 强 烈 建议 使 用 - -Logappend 








--directoryperdb 
启用 该 选项 可 将 每 个 数据 库存 放 在 单独 的 目录 中 。 我 们 可 由 此 按 需 将 不 同 的 数据 
库 挂 载 到 不 同 的 磁盘 上 。 该 选项 一 般 用 于 将 本 地 数据 库 或 副本 放置 于 单独 的 磁盘 
上 ， 或 在 磁盘 空间 不 足 时 将 数据 库 移动 至 其 他 磁盘 。 也 可 将 频繁 操作 的 数据 库 挂 
载 到 速度 较 快 的 磁盘 上 ， 而 将 不 常用 的 数据 库 放 到 较 慢 的 磁盘 上 。 总 之 该 选项 能 
使 我 们 在 今后 更 加 灵活 地 操作 数据 库 。 














--Config 
额外 加 载 配置 文件 ， 未 在 命令 行 中 指定 的 选项 将 使 用 配置 文件 中 的 参数 。 该 选项 
通常 用 于 确保 每 次 重新 启动 时 的 选项 都 是 一 样 的 。 详 细 内 容 请 参见 20.1.1 市 。 





例如 ， 要 在 后 台 启 动 一 个 服务 器 ， 监 听 5586 端口 ， 并 将 所 有 输出 信息 发 送 至 
mongodb.log 文件 中 ， 可 运行 如 下 命令 : 


$ ./mongod --port 5586 --fork --Logpath mongodb.log --Logappend 
forked process: 45082 
all output going to: mongodb.log 
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注意 ，mongod 可 能 在 意识 到 自身 启动 前 ， 便 开始 预 配 置 日 志文 件 。 这 时 ， 直 到 预 
配置 完成 ，fork 命令 才 会 返回 命令 提示 符 。 可 查看 mongodb.log 文件 (或 重 定向 日 
志文 件 ) 末尾 ， 观 察 这 一 操作 过 程 。 





首次 安装 启动 MongoDB 时 ， 应 查看 一 下 日 志 。 这 一 点 很 容易 被 忽视 ， 尤 其 是 使 用 
初始 化 脚本 来 启动 MongoDB 的 时 候 。 但 日 志 中 常 包含 重要 的 警告 信息 ， 及 时 解决 


这 些 问题 可 预防 随 之 而 来 的 错误 。 如 启动 时 没有 出 现任 何 警 告 ， 那 么 就 一 切 就 绪 了 。 
(启动 时 发 出 的 警告 信息 会 同时 出 现在 shell 里 。) 














如 在 启动 时 








H 现 了 警告 信息 ， 应 把 它们 记录 下 来 。MongoDB 会 因 以 下 问题 发 H 


区 





告 : 运行 于 32 位 的 机 器 上 (MongoDB 并 非 为 32 位 机 器 设计 ); 启用 了 NUMA 
(Non-Uniform Memory Access， 韭 均匀 访 存 模型 ， 启 用 此 会 严重 拖 慢 应 用 的 运行 速 
度 ) ; 或 者 系统 所 允许 打开 的 文件 描述 符 (descriptor) 数目 过 少 (MongoDB 需 使 用 
大 量 的 文件 描述 符 )。 
重启 数据 库 时 ,日志 的 前 部 不 会 发 生 更 改 ， 所 以 一 旦 了 解 了 日 志 内 容 ， 就 完全 可 以 
使 用 初始 化 脚本 来 运行 MongoDB ， 而 不 用 去 考虑 日 志 。 然 而， 在 安装 、 升 级 ， 
从 崩溃 中 恢复 后 ， 都 应 重新 检查 日 志 ， 以 确保 MongoDB 和 系统 相 契 合 。 


启动 数据 库 时 ，MongoDB 会 将 一 个 文档 写 入 local.startup_log 集合 中 ， 该 集合 包含 





了 MongoDB 











的 版 本 、 其 所 基于 的 系统 ， 以 及 所 用 的 标记 : 


> db.startup Log.findone() 


{ 


id 


: "Spock-1360621972547"， 


"hostname" : "spock", 

"startTime" : I90Date("2013-02-11T22:32:522")， 
"startTimeLocal" : "Mon Feb 11 17:32:52.547", 
"cmdLine" : { 


和 
"pid， 


” : 28243, 


"buildinfo" : { 


] 


"javascriptEngine" : "V8", 


Version"”: "2.4.0-rcl-pre-", 


'versionArray" : [ 
2 
4, 
0, 
-9 


'bits" : 64, 
'debug" : false, 
‘maxBsonObjectSize" : 16777216 


或 
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该 集合 可 用 于 跟踪 数据 库 升 级 或 更 改 后 的 运行 状况 。 


使 用 配置 文件 

MongoDB 支持 从 文件 中 读 取 配 置信 息 。 当 使 用 的 选项 很 多 ， 或 自动 化 启动 任务 时 ， 
使 用 配置 文件 就 十 分 实用 。 使 用 -f 或 --config 标记 ， 告 知 服务 器 使 用 配置 文件 。 
例如 ， 运 行 mongod --config ~/.mongodb.conf， 从 而 使 用 ~/ .mongodb .conf 
和 为 配置 文件 。 


配置 文件 中 支持 的 参数 和 在 命令 行 中 的 参数 完全 相同 。 以 下 是 一 个 配置 文件 的 例子 : 











# Start MongoDB as a daemon on port 5586 


port = 5586 

fork = true # daemonize it! 
Logpath = /var/log/mongodb. log 
Logappend = true 


该 配置 文件 指定 的 参数 与 之 前 启动 时 在 命令 行 中 指定 的 参数 相同 。 文 件 中 也 展现 了 
MongoDB 配置 文件 的 主要 内 容 : 

。 # 后 的 内 容 ， 会 被 作为 注释 忽略 掉 ， 

。 指定 参数 的 语法 是 option = value， 其 中 option 的 名 称 区 分 大 小 写 ; 

。 在 命令 行 中 类 似 - -fork 的 开关 选项 ， 应 把 fork 的 值 设 为 true 。 











20.2 停止 MongoDB 

安全 停止 运行 中 的 MongoDB 服务 器 ， 与 安全 启动 该 服务 器 一 样 重 要 。 有 若干 不 同 
选项 可 有 效 地 完成 这 一 操作 。 

关闭 运行 中 的 服务 器 ， 最 简洁 的 方法 是 使 用 shutdown 命令 一 一 {"shutdown" 
1}。 这 是 一 个 管理 员 命 令 ， 必 须 运行 在 admin 数据 库 上 。shell 提供 了 一 个 辅助 函 
数 ， 用 以 简单 地 执行 shutdown 命令 : 








> use admin 

switched to db admin 

> db.shutdownServer() 
server should be down... 


在 主 节点 (primary) 上 运行 shutdown 命令 时 ， 服 务 器 在 关闭 前 ， 会 先 等 待 备份 
节点 (secondary) 追赶 (catch up) 主 节 点 以 保持 同步 。 这 将 回 滚 的 可 能 性 降 至 最 
低 ， 但 shutdown 操作 有 失败 的 可 能 性 。 如 儿 秒 钟 内 没有 备份 节点 成 功 同步 ， 则 
shutdown 操作 失败 ， 主 节点 亦 不 会 停止 运行 : 
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> db.shutdownServer() 


{ 
"closest" : NumberLong(1349465327), 
"difference" : NumberLong(20), 
"errmsg" : "no secondaries within 10 seconds of my optime", 
"ok" : 0 
} 


可 使 用 force 选项 ， 强 制 关 闭 主 节点 : 


db.adminCommand({"shutdown" : 1, "force" : true}) 


这 相当 于 发 送 一 个 SIGINT 或 SIGTERM 信号 (三 种 做 法 都 能 使 MongoDB 安全 
地 停止 运行 ， 但 可 能 会 有 数据 未 能 完成 同步 )。 如 服务 器 正在 终端 中 作为 前 台 进 程 
运行 ， 那 么 按 下 Ctrl-C 快捷 键 也 能 发 送 一 个 SIGINT 信号 。 另 外 ，kill 之 类 的 命 
令 也 可 用 于 发 送 这 些 信号 。 假 设 mongod 的 PID (Process identifier， 进 程 标识 符 ) 
为 10014， 那 么 相应 的 命令 就 是 kiLL -2 10014 (发 送 SIGINT 信号 ) 或 kill 
10014 (发 送 SIGTERM 信号) 。 





mongod 收 到 SIGINT 或 SIGTERM 信号 后 ， 会 安全 地 停止 运行 。 这 意味 着 mongod 
会 等 当前 正在 进行 的 操作 或 文件 预 分 配 结束 〈 耗 时 一 定时 间 ) ， 再 关闭 所 有 打开 的 连 
接 ， 将 缓存 写 入 磁盘， 继而 结束 运行 。 


20.3 ”安全 性 

不 要 将 MongoDB 服务 器 直接 暴露 在 外 网 上 。 应 尽 可 能 地 限制 外 部 对 MongoDB 的 
访问 。 最 好 的 方式 是 设置 防火 墙 ， 只 允许 内 部 网 络 地 址 对 MongoDB 的 访问 。 第 23 
章 介 绍 了 MongoDB 服务 器 与 客户 端 间 的 必要 连接 。 


除 使 用 防火 墙 外 ， 也 可 在 配置 文件 中 加 入 以 下 选项 来 增强 安全 性 。 




















。 --bind ip 
指定 MongoDB 监听 的 接口 。 我 们 通常 将 其 设置 为 一 个 内 部 IP 地址 ， 从 而 保证 应 
用 服务 器 和 集群 中 其 他 成 员 的 访问 ， 同 时 拒绝 外 网 的 访问 。 如 MongoDB 与 应 用 
服务 器 运行 于 同一 台 机 器 上 ， 则 可 将 其 设 为 LocaLhost。 但 配置 服务 器 和 分 片 需 
要 其 他 机 器 的 访问 ， 所 以 不 应 设 为 LocaLhost。 























。 --nohttpinterface 
MongoDB 启动 时 ， 默 认 在 端口 1000 启动 一 个 微型 的 HTTP 服务 器 。 该 服务 器 
可 提供 一 些 系 统 信息 ， 但 这 些 信息 均 可 在 其 他 地 方 找 到 。 对 于 一 个 可 能 只 需 通 过 
SSH 访问 的 机 器 ， 没 有 必要 将 这 些 信息 暴露 在 外 网 上 。 
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除非 正在 进行 开发 ， 否 则 请 关闭 此 选项 。 


--nounlixsocket 
如 不 打算 使 用 UNIX socket 来 进行 连接 ， 则 可 禁用 此 选项 。 只 有 在 本 地 ， 即 应 用 
服务 器 和 MongoDB 运行 在 同一 台 机 器 上 时 ， 才 能 使 用 socket 进行 连接 。 





--noscripting 

该 选项 完全 禁止 服务 器 端 JavaScript 脚本 的 运行 。 大 多 数 报告 的 MongoDB 安全 
问题 都 与 JavaScript 有 关 。 如 程序 允许 的 话 ， 禁 止 JavaScript 通常 会 更 安全 一 些 。 
一 些 shell 中 的 辅助 函数 依赖 于 服务 器 端的 JavaScript， 尤 其 是 sh.status () 。 
在 一 台 禁 止 了 JavaScript 的 服务 器 上 运行 这 些 辅 助 函 数 时 ， 会 出 现 错误 提示 。 


不 要 启用 REST 操作 界面 。 该 界面 是 默认 禁用 的 ， 开 启 后 可 在 服务 器 上 执行 很 多 命 
令 ， 但 并 非 为 生产 环境 所 设计 。 


20.3.1 数据 加 密 

截止 至 撰写 本 书 时 ，MongoDB 还 未 提供 内 置 数据 加 密 机 制 。 如 需 对 数据 进行 加 密 ， 
可 使 用 加 密 文件 系统 。 另 一 种 做 法 是 手动 加 密 某 些 字段 ， 但 MongoDB 无 法 查询 加 
密 的 值 。 








20.3.2 ”SSL 安 全 连接 

连接 至 MongoDB 传输 的 数据 默认 不 被 加 密 。 然 而 ，MongoDB 支持 使 用 SSL 连接 。 
由 于 授权 的 原因 ， 默 认 版 本 中 并 未 包含 SSL， 可 从 http:Wwww.10gen.com 下 载 一 个 
支持 SSL 的 版 本 。 也 可 以 自己 编译 MongoDB 的 源 代 码 启 用 SSL。 请 查阅 本 国语 言 
的 驱动 程序 文档 ， 了 解 创建 SSL 连接 的 方法 。 








20.4 日 志 


mongod 默认 将 日 志 发 送 至 stdout (标准 输出 ， 通 常 为 终端 )。 大 多 初始 化 脚本 会 使 
用 --Logpath 选项 ， 将 日 志 发 送 至 文件 。 如 在 同一 台 机 器 上 有 多 个 MongoDB 实例 
(比如 说 一 个 mongod 和 一 个 mongos) ， 注 意 保 证 各 实例 的 日 志 分 别 存放 在 单独 的 文 
件 中 。 确 保 知道 日 志 的 存放 位 置 ， 并 拥有 文件 的 读 访 问 权 限 。 


MongoDB 会 输出 大 量 日 志 消 息 ， 但 请 不 要 使 用 - -quiet 选项 (该 选项 会 隐藏 部 分 
日 志 消 息 )。 保 持 日 志 级 别 为 默认 值 通常 不 错 ， 此 时 日 志 中 有 足够 的 信息 进行 基本 调 
试 (如 耗 时 过 长 或 启动 异常 的 原因 等 )， 但 日 志 占 用 的 空间 并 不 大 。 调 试 应 用 某 特定 
问题 时 ， 可 使 用 一 些 选项 从 日 志 中 获取 更 多 信息 。 
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首先 ， 在 重启 MongoDB 时 ， “v”( 即 -v、-vv 
-VVV、-VVVWV 或 -vvvvv)， 或 运行 如 下 setParameter 命令 ， 完 成 日 志 级 别 (log 
level) 的 更 改 。 


> db.adminCommand({"setParameter" : 1, "logLevel" : 3}) 


记得 将 日 志 级 别 重 设 为 0， 否 则 日 志 中 会 存在 过 多 不 必要 的 内 容 。 可 将 日 志 级 别 调 
高 至 5， 这 时 mongod 会 在 日 志 中 记录 几乎 所 有 的 操作 ， 包 括 每 一 个 请 求 所 处 理 的 
内 容 。 由 于 mongod 将 所 有 内 容 都 写 入 了 日 志文 件 ， a 写 操 
作 (IO)， 从 而 拖 慢 一 个 忙碌 的 系统 。 如 需 即 时 看 到 正在 进行 的 所 有 操作 ， 打 开 分 
析 器 不 失 为 更 好 的 方法 : 


MongoDB 默认 记录 耗 时 超过 100 毫秒 的 查询 信息 。 如 100 毫秒 不 适用 于 应 用 ， 可 
通过 setProfilingLevel 命令 来 更 改 此 国 值 : 











> // 只 记录 耗 时 超过 500 毫秒 的 查询 操作 

> db.setProfilingLevel(1, 500) 

{ "was" : 0, "slowms" : 100, "ok" : 1 } 
> db.setProfilingLevel (0) 

{ "was"” : 1, "slowms" : 500, "ok" : 1 } 


上 述 第 二 条 指令 将 关闭 分 析 器 ， 但 第 一 条 指令 中 以 毫秒 为 单位 的 值 将 继续 作为 所 有 


数据 库 中 日 志 记 录 的 国 值 而 生效 。 也 可 使 用 - -slowms 选项 重启 MongoDB 来 更 改 
这 一 国 值 。 


最 后 ， 设 置 一 个 计划 任务 以 便 每 天 或 每 周 分 割 (rotate) 日 志文 件 。 如 使 用 
- -Logpath 选项 启动 MongoDB， 向 进程 发 送 一 个 SIGUSR1 信号 即使 其 对 日 志 进 行 
分 割 。 也 可 使 用 LogRotate 命令 以 达到 相同 目的 : 





> db.adminCommand({"logRotate" : 1}) 




















如 不 是 通过 - -Logpath 选项 启动 的 MongoDB， 则 不 能 对 日 志 进 行 分 害 


和 
o 
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监控 MongoDB 





在 部 署 前 设置 某 种 监控 系统 很 是 重要 。 监 控 系 统 应 该 能 够 跟踪 服务 器 正在 运行 的 操 
作 ， 也 能 够 在 遇 到 问题 时 及 时 发 出 警报 。 本 章 将 学 习 : 
。 如 何 跟踪 监测 MongoDB 的 内 存 使 用 状况 ， 


。 如 何 跟踪 监测 应 用 的 性 能 指标 ， 
。 如 何 诊断 复制 中 的 问题 。 








本 章 以 MMS (Mongo Monitoring Service，Mongo 监控 服务 ) 为 例 ， 演 示 监 控 时 
应 注意 的 内 容 。 请 于 https://mms.1l0gen.com 查找 MMS 的 安装 说 明 。 如 不 想 使 用 
MMS ， 也 可 使 用 其 他 监控 系统 。 监 控 系 统 可 在 故障 发 生前 检测 到 浴 在 问题 ， 并 有 助 
于 我 们 对 于 问题 的 诊断 。 


21.1 监控 内 存 使 用 状 ; 


访问 内 存 中 的 数据 很 快 ， 而 访问 磁盘 中 的 数据 则 较 慢 。 不 季 的 是 ， 二 者 相 比 ， 内 存 
较为 昂贵 ， 而 MongoDB 通常 也 会 优先 使 用 内 存 。 本 节 将 讲述 有 关 MongoDB 与 内 
存 和 磁盘 进行 交互 的 监控 方式 ， 以 及 监控 中 应 关注 的 内 容 。 


21.1.1 有 关 电脑 内 存 的 介绍 

电脑 中 一 般 会 有 容量 小 且 访问 速度 快 的 内 存 ， 以 及 容量 大 但 访问 速度 慢 的 磁盘 。 当 
请 求 一 页 存储 于 磁盘 上 但 尚未 存 于 内 存 中 的 数据 时 ， 系 统 就 会 产生 一 个 缺 页 中 断 ， 
而 后 将 此 页 数据 从 磁盘 复制 到 内 存 。 此 后 就 可 以 极 快 地 访问 内 存 中 的 页 面 。 如 程序 
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不 再 使 用 此 页 面 内 容 ， 而 内 存 又 被 其 他 页 所 占 满 ， 旧 的 页 面 就 会 被 清除 出 内 存 而 只 
存在 于 磁盘 上 。 


将 一 页 数据 从 磁盘 复制 到 内 存 ， 比 从 内 存 中 读 取 一 页 数据 耗 时 更 长 。 因 此 ， 
MongoDB 从 磁盘 复制 数据 的 操作 越 少 越 好 。 如 果 MongoDB 能 够 在 内 存 中 进行 几乎 
所 有 操作 ， 则 访问 数据 的 速度 就 能 快 很 多 。 所 以 ，MongoDB 的 内 存 使 用 情况 ， 是 
要 跟踪 监测 的 最 重要 指标 之 一 。 


21.1.2 ”跟踪 监测 内 存 使 用 状况 


MongoDB 所 使 用 的 内 存 有 几 种 不 同 的 类 型 。 第 一 种 是 常 驻 内 存 (resident memory) : 
MongoDB 在 物理 内 存 中 明确 拥有 的 内 存 部 分 。 例 如 ， 在 查询 文档 时 ， 该 页 面 即 被 
载 入 内 存 中 ， 并 成 为 常 驻 内 存 的 一 部 分 。 


MongoDB 赋予 页 面 一 个 地 址 ， 此 地 址 并 非 物 理 内 存 中 页 面 的 真实 地 址 ， 而 是 一 个 
虚拟 地 址 。MongoDB 可 将 此 地 址 传 给 内 核 ， 继 而 由 内 核 将 其 翻译 成 真正 的 物理 地 
址 。 这 样 ， 即 使 内 核 需 将 此 页 面 从 内 存 中 清除 出 去 ，MongoDB 依然 可 通过 虚拟 地 
址 来 访问 此 页 面 。MongoDB 向 内 核 请 求 内 存 ， 内 核 会 在 它 的 页 缓存 (page cache ) 
中 进行 查找 。 但 请 注意 ， 该 页 并 不 在 此 处 。 查 找 失败 会 产生 缺 页 中 断 ， 继 而 将 此 页 
复制 至 内 存 ， 最 后 返回 到 MongoDB。 这 些 MongoDB 赋予 了 地 址 的 数据 页 面 ， 即 构 
成 了 映射 内 存 (mapped memory)， 其 中 包含 了 MongoDB 访问 过 的 所 有 数据 。 通 常 
情况 下 ， 了 映射 内 存 的 大 小 约 等 于 整个 数据 集 的 大 小 。 


MongoDB 为 映射 内 存 中 的 每 个 页 面 ， 都 额外 维护 了 一 个 虚拟 地 址 ， 以 供 日 记 
(journaling) 使 用 〈 参 见 第 19 章 )。 这 并 不 意味 着 内 存 中 有 着 两 份 同样 的 数据 ， 有 
的 只 是 两 个 地 址 而 已 。 所 以 ，MongoDB 所 使 用 虚拟 内 存 的 总 量 ， 约 是 映射 内 存 的 
两 倍 大 小 ， 或 者 说 是 整个 数据 集 的 两 倍 大 小 。 如 关闭 了 日 记 机 制 ， 则 映射 内 存 的 大 
小 约 等 于 虚拟 内 存 的 大 小 。 


注意 ， 虚 拟 内 存 和 映射 内 存 均 不 是 “真正 的 ”内 存 分 配 : 二 者 与 实际 占用 的 内 存 大 
小 训 无 关系 ， 它 们 只 是 MongoDB 维护 的 映射 罢了 。 理 论 上 ，MongoDB 可 映射 1 
PB (petabyte，1PB=1000 TB=1 000 000 GB) 的 内 存 ， 但 实际 只 使 用 了 几 GB 的 物 
理 内 存 。 所 以 不 用 担心 映射 内 存 或 虚拟 内 存 的 大 小 超过 物理 内 存 的 容量 。 


图 21-1 是 MMS 中 内 存 信 息 的 图 像 ， 描 述 了 MongoDB 所 使 用 的 常 驻 内 存 、 虚 拟 
内 存 和 映射 内 存 的 大 小 。 在 一 台 专 门 用 于 运行 MongoDB 的 机 器 上 ， 假 设 工作 集 
(working set) 的 大 小 不 小 于 内 存 容 量 ， 则 常 驻 内 存 的 大 小 应 稍 小 于 总 的 内 存 大 小 。 
只 有 常 驻 内 存 的 大 小 才 确 切 地 等 于 其 在 物理 内 存 中 所 占用 的 空间 ， 但 这 一 数据 并 不 
能 说 明 MongoDB 所 使 用 的 内 存 大 小 。 
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图 21-1; 从 上 至 下 依次 为 虚拟 内 存 、 映 射 内 存 和 常 驻 内 存 
数据 如 果 能 全 部 存放 在 内 存 中 的 话 ， 则 常 驻 内 存 应 与 数据 差不多 大 小 。 当 说 到 数据 








“在 内 存 中 ”时 ， 通 常 指 的 是 在 物理 内 存 中 。 




















21.1.3 ”跟踪 监测 缺 页 中 断 
如 图 21-1 所 示 ， 内 存 的 使 用 状况 通常 比较 稳定 ， 

















但 随 着 数据 集 的 增长 ， 虚 拟 内 存 和 





映射 内 存 也 得 到 了 增长 。 常 驻 内 存 会 增长 到 可 用 物理 内 存 的 大 小 ， 而 后 保持 不 变 。 


除了 以 每 种 内 存 各 占用 多 少 空间 为 依据 ， 还 可 通过 其 他 数据 得 知 MongoDB 的 内 存 
使 用 方式 。 其 中 很 实用 的 一 个 指标 是 发 生 缺 页 中 断 的 数量 ， 该 数量 表明 了 MongoDB 
所 寻找 的 数据 不 在 物理 内 存 中 这 一 事件 的 发 生 频 率 。 图 21-2 和 图 21-3 为 一 段 时 间 
内 发 生 缺 页 中 断 的 次 数 。 图 21-3 中 缺 页 中 断 的 发 生 次 数 较 少 ， 但 这 一 数据 本 身 并 不 

















能 说 明 很 多 问题 。 如 果 图 21-2 中 的 磁盘 能 够 处 理 





这 么 多 的 缺 页 中 断 ， 而 应 用 程序 可 


以 处 理 这 些 磁 盘 操 作 造 成 的 延迟 ， 那 么 有 这 么 多 缺 页 中 断 也 没什么 问题 。 另 一 方面 ， 
如 果 应 用 程序 无 法 处 理 从 磁盘 中 读 取 数据 造成 的 延迟 ， 则 只 能 将 所 有 数据 存放 到 内 
存 中 ， 或 者 使 用 固态 硬盘 (solid state drive，SSD ) 。 
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图 21-2: 一 个 每 分 钟 发 生 百 余 次 缺 页 中 断 的 系统 





监控 MongoDB | 343 














+ Ar e 








_。 jl Ll, | [2 





16Feb 


17Feb 








图 21-3: 一 个 每 分 钟 发 生 几 次 缺 页 中 断 的 系统 


无 论 应 用 能 否 处 理 这 些 延 迟 ， 缺 页 中 断 都 会 在 磁盘 超 负 荷 时 成 为 大 问题 。 磁 盘 能 够 
处 理 的 读 取 操 作 数 目 并 非 是 线性 的 : 一 旦 磁盘 开始 超 负 荷 运行 ， 每 个 操作 都 必须 排 
队 等 候 更 长 时 间 ， 从 而 引发 连锁 反应 。 磁 盘 的 超 负荷 运行 通常 存在 一 个 临界 点 ， 超 
出 临界 点 后 磁盘 的 性 能 会 迅速 下 降 。 因 此 ， 应 避免 磁盘 的 最 大 负 葆 运转 。 


监测 一 段 时 间 内 缺 页 中 断 的 数量 。 如 应 用 在 某 一 数量 的 缺 页 中 断 下 表现 良好 ， 则 表 





明 划 











为 系统 可 处 理 的 缺 页 中 断 数量 底线 。 女 





应 用 性 能 在 缺 页 中 断 上 升 至 茶 一 数值 时 


开始 发 生 恶 化， 则 表明 该 数值 是 应 发 出 警告 的 临界 值 。 


在 serverStatus 命令 输出 的 recordStats 字段 中 ， 可 看 到 每 个 数据 库 的 缺 页 中 


断 情 况 : 


> db.adminCommand({"serverStatus" : 


{ 


"accessesNotInMemory": 200632， 
"test": { 
"accessesNotInMemory": 1, 
"pageFaultExceptionsThrown": 0 
}, 
"pageFaultExceptionsThrown": 6633, 
"admin": { 
"accessesNotInMemory": 1247， 
"pageFaultExceptionsThrown": 1 


1})["recordStats"] 


}, 

"bat": { 
"accessesNotInMemory": 199373， 
"pageFaultExceptionsThrown": 6632 

}, 

"config": { 
"accessesNotInMemory": 0， 
"pageFaultExceptionsThrown": 0 

}, 

"local": { 


"accessesNotInMemory": 2, 
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"pageFaultExceptionsThrown": 0 
} 
}, 








其 中 的 accessesNotInMemory 表示 ，MongoDB 自 启动 以 来 必须 去 磁盘 上 读 取 数 
据 的 次 数 。 


21.1.4 减少 索引 树 的 脱 靶 次 数 

访问 不 在 内 存 中 的 索引 条 目 时 效率 尤其 低下 ， 因 为 这 一 操作 通常 会 造成 两 次 缺 页 中 
断 ， 分 别 发 生 在 将 索引 条 目 和 文档 加 载 和 内存 之 际 。 查 询 索 引 造 成 缺 页 中 断 时 ， 我 
们 称 其 为 索引 树 的 脱 靶 (btree miss)。MongoDB 也 会 监测 索引 树 中 靶 (btree hits) 
的 次 数 ， 即 无 需 到 磁盘 上 访问 索引 。 图 21-4 中 可 看 到 这 两 个 数值 。 


索引 十 分 常用 ， 通常 处 于 内 存 中 ,但 如 果 内 存 过 小 而 索引 又 过 多 ， 或 访问 模式 不 
正常 (例如 进行 大 量 的 表 扫 描 )， 都 会 造成 索引 树 脱 靶 次 数 的 增长 。 通 常情 况 下 ， 
脱 朋 次 数 应 保持 在 很 小 的 数值 ， 因 此 ， 一 旦 发 现 该 数值 过 高 ， 则 须 着 手 找 出 问题 的 
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21-4: 索引 树 状况 图 表 


21.1.5 ”1O 延 迟 

IO 延迟 指 CPU 闲置 等 待 磁盘 响应 的 时 间 。 通 常情 况 下 ， 该 延迟 与 缺 页 中 断 密切 相 
关 。 一 些 IO 延迟 是 正常 的 ， 因 为 MongoDB 有 时 须 对 磁盘 进行 访问 ， 且 无 法 完全 避 
免 对 其 他 操作 的 妨碍 。 重 要 的 是 ， 需 保证 IO 延迟 不 再 持续 增长 或 增 至 100% 左右 。 
如 图 21-5 所 示 ， 这 表明 磁盘 正在 超 负 和 荷 运转 。 
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21-5: IO 延迟 处 于 100% 左右 


MMS 可 通过 安装 插件 munin 来 监测 CPU 信息 。 如 需 查 看 安装 说 明 ， 请 访问 https:// 


mms.l0gen.com/help/install.html#hardware-monitoring-with-munin-node。 


21.1.6 ”跟踪 监测 后 台 刷 新 平均 时 间 

需 关 注 的 另 一 磁盘 参数 是 ，MongoDB 将 脏 页 (dirty page) 写 入 磁盘 所 花费 的 时 间 ， 
即 后 台 刷 新 平均 时 间 (background flush average)。 该 数据 相当 于 一 个 警钟 。 一 旦 所 
需 时 间 开 始 延 长 ， 就 表示 磁盘 的 速度 跟 不 上 需要 处 理 的 请 求 。 


MongoDB 默认 会 以 至 少 每 分 钟 一 次 的 频率 ， 将 所 有 缓存 中 的 数据 刷新 到 磁盘 中 。 
(在 有 很 多 脏 页 的 情况 下 ，MongoDB 可 能 会 以 更 高 的 频率 进行 刷新 ， 这 取决 于 操作 
系统 。) 可 在 启动 mongod 时 ， 通 过 - -syncdelay 选项 后 的 参数 ， 以 秒 为 单位 ， 来 
配置 这 一 时 间 间 隔 的 值 。 同 步 的 频率 越 高 ， 每 次 同步 的 数据 则 更 小 ， 但 效率 也 会 随 
之 降低 。 























人 们 常 误 以 为 syncdelay 选项 会 影响 数据 持久 性 。 但 实际 上 二 者 毫 无 关 
一 公示 。 要 想 确保 数据 持久 性 ， 应 使 用 日 记 系统 (journaling) 。syncdelay 只 
用 于 调节 磁盘 性 能 。 











通常 情况 下 ， 我 们 希望 后 台 刷 新 平均 时 间 能 够 低 于 一 秒 。 在 繁忙 的 机 器 上 或 慢 速 磁 
盘 上 ， 该 时 间 会 有 所 延长 ， 并 且 随 着 磁盘 超 负 荷 的 运行 ， 所 需 时 间 会 变 得 越 来 越 
长 。 在 某 一 时 刻 ， 磁 盘 超 出 负荷 太 多 ， 以 至 于 数据 刷新 用 时 超过 60 秒 ， 这 意味 着 
MongoDB 会 不 断 尝试 进行 刷新 (这 又 对 磁盘 造成 了 更 大 的 负担 )。 磁 盘 刷 新 时 间 侦 
尔 出 现 高 峰 是 可 以 接受 的 。 但 不 断 出 现 数 十 秒 的 长 时 间 写 入 则 是 我 们 不 希望 看 到 的 。 


图 21-6 为 后 台 刷 新 平均 时 间 的 曲线 变化 图 。 该 系统 的 硬盘 驱动 器 压力 很 大 ， 总 是 需 
要 大 于 5 秒 的 时 间 来 写 信 前 一 分 钟 产 生 的 数据 。 速 度 有 些 慢 ， 尤 其 是 经 常会 出 现 ; 








澡 疆 
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20 秒 时 长 的 高 峰 期 ， 所 以 可 能 有 必要 将 syncdelay 的 值 调 低 一 些 ， 比 如 说 40 秒 ， 
然后 看 看 每 次 刷新 较 少 的 数据 是 否 会 有 帮助 。 











| 后 台 刷 新 平均 时 间 +|elvjele 


2013/02/13 22:02: background flush avg:24.7 s 
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图 21-6: 超 负荷 系统 的 后 台 刷 新 平均 时 间 


如 果 后 台 刷新 平均 时 间 长 时 间 超出 磁盘 所 能 承受 的 值 (可 能 只 超 了 几 秒 钟 ) ， 就 应 访 
开始 考虑 如 何 减轻 磁盘 的 负载 。 


MongoDB 只 需 刷新 脏 数据 〈 即 发 生 更 改 的 数据 ) ， 所 以 后 台 刷 新 平均 时 间 通 常 反映 
出 写 入 负载 的 大 小 ， 即 写 入 操作 和 写 入 数据 的 数量 。 因 此 ， 如 果 写 入 负载 很 低 ， 后 
台 刷 新 平均 时 间 可 能 无 法 表现 出 磁盘 的 压力 大 小 。 除 后 台 刷 新 平均 时 间 外 ， 还 应 同 
十 监测 IO 延迟 和 缺 页 中 断 的 情况 。 


21.2 ”计算 工作 集 的 大 小 


通常 情况 下 ， 内 存 中 数据 越 多 ，MongoDB 的 运行 速度 就 越 快 。 因 此 ， 应 用 可 遇 到 

如 下 情况 (运行 速度 从 快 到 慢 排 列 )。 

(1) 整个 数据 集 均 在 内 存 中 。 虽 然 这 种 情况 很 不 错 ， 但 通常 代价 过 大 或 不 可 行 。 此 种 
情况 可 能 需要 应 用 的 响应 速度 足够 快 才能 达成 。 

(2) 工作 集 处 于 内 存 中 。 这 是 最 常见 的 选择 。 
工作 集 是 应 用 所 使 用 的 数据 和 索引 。 这 可 能 是 其 所 有 内 容 ， 但 通常 来 讲 会 存在 一 
个 能 够 覆盖 90% 请 求 的 核心 数据 集 (如 用 户 集合 和 最 近 一 个 月 的 活动 ) 。 如 该 工 
作 集 存在 于 物理 内 存 中 ，MongoDB 的 运行 速度 通常 会 很 快 ， 因 为 它 只 有 在 遇 到 
少数 “不 寻常 ”的 请 求 时 才 需 访问 磁盘 。 

(3) 索引 处 于 内 存 中 。 

(4) 索引 的 工作 集 处 于 内 存 中 。 通 常 需要 右 平 衡 索 引 才 能 达成 此 种 情况 ( 详 见 第 $ 章 
内 容 )。 
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(5) 内 存 中 没有 可 用 的 数据 子 集 。 可 能 的 话 ， 应 避免 这 种 情况 。 这 会 使 数据 库 运行 
缓慢 。 








我 们 必须 通过 了 解 工作 集 的 内 容 及 大 小 来 判断 能 否 将 其 存 和 人 内存。 计算 工作 集 大 小 
的 最 好 方式 是 跟踪 分 析 一 些 常用 的 操作 ， 从 而 找 出 应 用 的 读 写 数据 有 多 少 。 例 如 ， 
假设 应 用 每 周 会 创建 2 GB 的 新 数据 ， 而 其 中 800 MB 是 经 常 被 访问 的 。 用 户 通常 只 会 
访问 近 一 个 月 的 数据 ， 更 早 的 数据 则 通常 不 会 被 用 到 。 这 样 工 作 集 大 小 可 能 是 3.2 GB 
(800MB/ 周 x4 周 ) 左右 ， 再 根据 经 验 估计 一 下 索引 大 小 ， 加 起 来 大 概 是 5 GB。 


























可 通过 跟踪 监测 一 段 时 间 内 被 访问 的 数据 来 考虑 这 一 问题 ， 如 图 21-7 所 示 。 如 选择 
尽快 满足 90% 的 请 求 ， 则 这 一 时 间 段 内 生成 的 数据 和 索引 即 为 工作 集 ， 如 图 21-8 
所 示 。 可 测量 这 一 时 间 的 长 短 ， 从 而 计算 出 数据 集 的 增长 情况 。 注 意 ， 此 例 使 用 了 
时 间 ， 即 数据 的 新 旧作 为 参数 ， 但 同时 可 能 存在 更 适用 于 应 用 的 访问 模式 (时间 是 
最 常用 的 一 种 )。 





被 访问 次 数 


数据 新 旧 程 度 


21-7: 数据 新 旧 程 度 与 被 访问 次 数 的 关系 图 














被 访问 次 数 





数据 新 旧 程 度 














21-8: 工作 集 即 经 常 进行 的 请 求 所 访问 的 数据 
还 可 通过 MongoDB 的 状态 来 估计 工作 集 的 大 小 。MongoDB 保留 有 一 个 记录 内 存 内 
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容 的 图 表 ， 可 将 "workingSet" : 1 参数 传人 serverStatus 来 得 知 这 些 内 容 : 
> db.adminCommand({"serverStatus" : 1, "workingSet" : 1}) 
{ 


"workingSet" :; { 
"note" : "thisIsAnEstimate", 
"pagesInMemory" : 18, 
"computationTimeMicros" : 3685, 
"overSeconds" : 2363 


} 


pagesInMemory 指 MongoDB 认为 当前 内 存 中 的 页 面 数 目 。 实 际 上 ，MongoDB 并 
不 知道 其 确切 数值 ， 但 结果 应 该 很 接近 。 在 返回 信息 中 ， 如 果 内 存 中 的 页 面 数目 与 
内 存 大 小 相等 ， 则 该 数值 没有 什么 价值 ， 但 如 果 页 面 数目 小 于 内 存 大 小 ， 则 该 数值 
可 能 与 工作 集 的 大 小 有 关 。 















































serverStatus 的 返回 结果 默认 不 包含 workingSet 字段 。 


一 些 工 作 集 的 例子 

假设 工作 集 大 小 为 40 GB。90% 的 请 求 能 够 命中 工作 集 ， 其 他 10% 则 需 访问 工作 集 
以 外 的 数据 。 如 果 有 500 GB 的 数据 和 50 GB 的 内 存 ， 则 工作 集 可 全 部 放 入 内 存 中 。 
一 旦 应 用 访问 了 需 经 常 访问 的 数据 ( 即 预 热 过 程 )， 则 无 需 在 访问 工作 集 时 再 次 访问 
磁盘 。 有 10 GB 的 空间 提供 给 460 GB 不 第 访 问 的 数据 。 显 然 ，MongoDB 几乎 总 是 
要 到 磁盘 上 访问 工作 集 以 外 的 数据 。 


另 一 方面 ， 假 设 工作 集 无 法 放 入 内 存 。 比 如 只 有 35 GB 的 内 存 。 这 种 情况 下 工作 集 
通常 会 占据 大 部 分 的 内 存 。 工 作 集 中 的 内 容 经 常 被 访问 ， 因 而 更 有 可 能 留 在 内 存 中 ， 
但 有 了 时 不 常 访问 的 数据 也 会 被 载 和 内存， 从 而 将 工作 集 (或 其 他 不 常 访问 的 数据 ) 
挤 出 内 存 。 于 是 ， 内 存 和 磁盘 会 频繁 进行 数据 交换 ， 此 时 无 法 再 预测 访问 工作 集中 
数据 的 性 能 。 


|| 大 3 bE* 
21.3 ”跟踪 监测 性 能 状况 
查询 的 性 能 通常 应 重点 监测 并 使 其 保持 稳定 。 有 几 种 方式 可 用 来 监测 MongoDB 是 
否 能 承受 当前 的 请 求 负 街 。 
MongoDB 占用 CPU 时 ， 大 部 分 时 间 花 在 了 处 理 器 的 读 写 上 (IO 延迟 很 高 ， 其 他 指 
标 可 忽略 )。 然 而 ， 如 果 用 户 或 者 系统 占用 的 CPU 时 间接 近 100% (或 者 100% 乘 
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以 CPU 的 数量 ) ， 最 可 能 的 原因 是 一 个 常用 的 查询 缺少 合适 的 索引 。 另 一 种 可 能 性 
是 运行 了 太 多 的 MapRedues 或 其 他 的 服务 器 端 JavaScript 脚本 。 有 必要 跟踪 监测 
CPU， 从 而 确保 所 有 查询 的 表现 与 预想 中 的 相符 ， 特 别 是 在 部 署 了 一 个 新 版 本 的 应 
用 之 后 。 


注意 ， 图 21-9 中 显示 的 是 正常 的 ， 如 果 缺 页 中 断 的 数量 较 低 ，IO 延迟 可 能 被 其 他 
CPU 活动 所 拖累 。 只 有 在 其 他 活动 增长 时 ， 缺 少 合适 的 索引 才 可 能 是 罪魁 祸首 。 
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图 21-9: 一 个 有 着 最 小 10 延迟 的 CPU 状态 图 。 上 面 的 曲线 表示 用 户 的 CPU 时 间 ， 下 面 的 
是 系统 的 CPU 时 间 。 其 他 数据 都 非常 接近 0% 


另 一 个 相似 的 指标 是 队列 长 度 ， 即 有 多 少 请 求 正 在 等 待 MongoBD 的 处 理 。 请 求 在 
等 待 锁 进 行 读 写 操作 时 ， 即 被 认为 是 处 于 队列 中 。 图 21-10 为 读 写 队 列 随时 间 变 化 
的 图 像 。 不 存在 队列 为 最 佳 〈 此 时 图 像 基 本 为 空白 )， 但 无 需 针对 这 一 指标 发 出 警 
报 。 在 一 个 党 忙 的 系统 中 ， 操 作 需 耗 时 等 待 以 获取 所 需 的 锁 ， 这 一 点 很 常见 。 
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图 21-10: 读 写 队列 随时 间 变 化 的 图 像 


可 通过 队列 中 的 请 求 数量 ， 判 断 是 否 发 生 了 阻塞 。 通常 队列 的 长 度 应 该 很 低 。 一 
个 很 长 且 始 终 存 在 的 队列 表示 mongod 无 法 承受 其 负载 。 应 尽快 减轻 该 服务 器 的 
负荷 。 
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可 将 队列 长 度 和 锁 比 例 (lock percentage) 两 个 指标 结合 起 来 ， 锁 比例 指 MongoDB 
处 于 锁定 中 的 时 间 。 一 般 来 讲 ， 相 较 于 发 生 锁 定 ， 磁 盘 IO 更 倾向 于 限制 写 入 。 但 
依然 有 必要 对 锁定 进行 跟踪 监测 ， 尤 其 是 磁盘 速度 快 ， 或 连续 写 和 人 多 的 系统 。 重 复 
一 遍 ， 锁 比例 过 高 的 最 普遍 原因 之 一 就 是 缺少 了 合适 的 索引 。 随 着 锁 比 例 的 增加 ， 
操作 取得 锁 所 需 的 平均 等 待 时 间 越 来 越 长 。 因 此 ， 过 高 的 锁 比 例会 将 所 有 东西 拖 慢 ， 
导致 请 求 堆积 ， 以 及 系统 中 更 高 的 负荷 和 更 高 的 锁 比 例 。 图 21-11 中 显示 了 极 高 的 
锁 比 例 ， 这 种 情况 应 尽快 得 到 处 理 。 


随 着 流量 大 小 的 变化 ， 锁 比例 常会 发 生起 伏 变化 。 但 如 果 锁 比例 长 时 间 保 持 上 升 趋 
势 ， 则 表明 系统 所 受 的 压力 较 大 ， 应 做 一 些 调整 。 因 此 ， 应 在 锁 比 例 长 时 间 保 持 过 
高 的 值 后 再 触发 警报 (这样 当 流量 突然 增加 时 就 不 会 触发 警报 了 ) 。 

男 一 方面 ， 我 们 可 能 也 希望 在 锁 比 例 突然 升 高 时 ， 比 如 说 高 于 正常 值 25% 时 触发 警 
报 。 该 数值 可 能 表明 系统 无 法 承载 突然 升 高 的 负 衔 ， 也 许 应 该 提高 系统 的 性 能 和 容 


量 了 。 
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21-11: 锁 比 例 徘徊 在 100% 附近 ， 这 种 情况 值得 注意 


除 全 局 的 锁 比 例外 ，MongoDB 也 对 每 个 数据 库 的 锁 比 例 进行 跟踪 。 因 此 ， 如 果 茶 
数据 库 有 很 多 的 连接 ， 可 单独 查看 其 锁 比 例 。 








跟踪 监测 空余 空间 

另 一 基本 但 却 很 重要 的 监测 指标 为 磁盘 的 使 用 情况 ， 即 监测 磁盘 的 空余 空间 。 有 时 
用 户 直到 磁盘 空间 被 占 满 时 才 想 起 处 理 这 一 问题 。 通 过 监测 磁盘 使 用 情况 ， 可 预测 
当前 磁盘 的 使 用 时 间 ， 并 为 磁盘 空间 不 足 提前 做 好 准备 。 


磁盘 空间 不 足 时 ， 有 以 下 几 个 选项 。 
。 如 果 在 使 用 分 片 ， 那 就 增加 一 个 分 片 。 
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。 依次 关闭 副本 集中 的 每 个 成 员 , 复制 数据 到 更 大 的 磁盘 上 进行 挂 载 。 重 启 该 成 员 ， 
然后 对 下 一 成 员 进行 同样 的 操作 。 

。 把 副本 集中 的 成 员 替 换 成 更 大 驱动 器 的 成 员 : 移 除 旧 成 员 ， 添 加 新 成 员 。 使 新 成 
员 追 赶 上 副本 集中 的 其 余 成 员 。 对 集合 中 的 每 个 成 员 重复 此 操作 。 

。 如 使 用 了 directoryperdb 选项 ， 且 数据 库 增长 速度 非常 快 ， 可 将 数据 库 移 至 其 
驱动 器 内 。 挂 载 驱 动 器 为 数据 目录 。 这 样 就 可 不 必 移 动 其 他 数据 内 容 了 。 


无 论 采取 哪 种 方法 ， 请 提前 做 好 准备 ， 从 而 使 对 应 用 产生 的 影响 降 至 最 低 。 请 先 做 
好 备份 ， 依 次 修改 副本 集中 的 每 个 成 员 ， 并 将 数据 从 一 处 复制 至 另 一 处 。 


21.4 监控 副本 集 
对 副本 集中 的 落后 (lag) 和 oplog (operation log) 长 度 进行 跟踪 监测 十 分 重要 。 


当 备 份 节点 无 法 与 主 节 点 保持 一 致 时 ， 就 产生 了 落后 。 主 节点 最 后 一 次 操作 的 时 间 
和 备份 节点 最 后 一 次 操作 的 时 间 差 值 ， 即 落后 的 值 。 例 如 ， 一 个 备份 节点 刚刚 完成 
了 一 次 操作 ， 其 时 间 惟 为 3:26:00 p.m.， 主 节点 刚刚 完成 了 一 次 操作 ， 其 时间 惟 为 
3:29:45 p.m.， 此 时 落后 的 值 即 为 3 分 45 秒 。 落 后 的 值 越 接近 0 越 好 ， 且 通常 为 毫 
秒 级 别 。 如 果 一 个 备份 节点 能 够 与 主 节 点 保持 同步 ， 副 本 集落 后 的 值 应 如 图 21-12 
所 示 ， 基 本 保持 为 0。 
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图 21-12: 一 个 不 存在 落后 的 副本 集 ， 这 是 最 理想 的 状态 


如 果 备 份 节点 的 复制 速度 赶不上 主 节 点 的 写 人 速度， 就 会 开始 出 现 非 0 的 落后 值 。 
最 极端 的 情况 是 副本 集 发 生 了 阻塞 : 由 于 某 种 原因 ， 副 本 集 无 法 再 接受 任何 操作 。 
这 种 情况 下 ， 每 经 过 一 秒 ， 沙 后 的 值 就 会 增加 一 秒 ， 在 图 像 中 呈现 一 个 陡坡 的 样子 ， 
如 图 21-13 所 示 。 这 可 能 是 由 于 网 络 问题 引起 的 ， 也 可 能 是 由 于 缺少 了 _id 索 引 ， 
副本 集 要 求 每 个 集合 都 拥有 这 一 索引 才能 正常 工作 。 


如 果 和 集合 缺少 了 _id 索引 ， 将 服务 器 脱离 副本 集 作为 一 个 独立 服务 器 启动 ， 然 后 建 
立 _id 索引 。 确 保 建 立 的 _id 索引 是 唯一 索引 (unique index)。 索 引 建 立 完成 后 ， 
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除非 删除 整个 集合 ， 否 则 _id 索引 不 能 发 生 删 除 或 更 改 。 
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21-13: 副本 集 发 生 阻 塞 ， 并 于 2 月 10 日 前 开始 进行 恢复 。 红 色 线 条 表示 服务 器 的 重新 启动 


如 系统 超 负 衔 运行 ， 备 份 节 点 可 能 会 逐 淅 被 主 节 点 落下 。 但 图 中 通常 不 会 显示 出 特 
征明 显 的 “每 秒 增 加 一 秒 ” 的 陡坡 ， 因 为 备份 节点 还 是 进行 了 一 些 复制 的 。 然 而 ， 
备份 节点 到 底 是 因为 无 法 与 高 峰 流 量 保持 一 致 而 被 落下 的 ， 还 是 逐渐 被 主 节 点 落下 
的 ， 这 一 点 十 分 重要 。 


主 市 点 不 会 为 了 “帮助 ”备份 方 点 追赶 上 来 而 限制 写 入 ， 所 以 在 超 负 荷 运行 的 系统 上 
备份 节点 追赶 不 上 的 情况 时 有 发 生 (尤其 是 MongoDB 中 写 入 的 优先 级 比 读 取 要 高 ， 
这 意味 着 副本 集 的 性 能 很 大 程度 上 取决 于 主 节 点 )。 可 在 写 和 人 时 使 用 “w” 参 数 来 强 
制 限制 主 节 点 的 写 入 。 也 可 通过 将 请 求 路 由 至 其 他 成 员 ， 从 而 降低 备份 节点 的 负载 。 


而 在 一 个 负载 极 低 的 系统 上 ， 可 在 副本 集落 后 值 的 图 像 中 看 到 另 一 种 有 趣 的 图 案 ， 即 
突然 出 现 的 高 峰值 ， 如 图 21-14 所 示 。 这 些 峰值 表示 的 并 不 是 真正 的 落后 ， 而 是 由 抽 
样 的 变化 产生 的 。mongod 每 隔 儿 分 钟 处 理 一 个 写 入 操作 。 落 后 的 值 是 主 市 点 和 备份 市 
点 的 时 间 惟 差 值 ， 而 对 备份 节点 时 间 戳 的 测量 恰好 发 生 在 主 节 点 的 写 和 操作 之 前 ， 这 
使 得 备份 节点 看 起 来 好 像 落 后 了 几 分 钟 一 样 。 如 果 增 加 写 和 频率， 这 些 峰 值 就 会 消失 。 
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图 21-14: 写 入 操作 数量 较 少 的 系统 会 产生 “ 伪 落 后 ” 
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另 一 需要 跟踪 监测 的 重要 指标 是 每 个 成 员 的 oplog 长 度 。 每 个 可 能 成 为 主 节 点 的 成 
员 都 应 拥有 一 份 长 度 超过 一 天 的 oplog。 如 一 个 成 员 可 能 成 为 另 一 个 成 员 的 同步 源 
(sync source) ， 则 应 拥有 一 份 长 度 足够 进行 初始 化 同步 (initial sync) 的 oplog。 
21-15 为 标准 的 oplog 长 度 图 像 。 该 长 度 极 佳 ， 达 1111 小 时 ， 即 超过 一 个 月 的 数 
据 ! 通常 ， 在 保证 磁盘 空间 充足 的 前 提 下 ，oplog 应 尽 可 能 地 长 。oplog 几乎 不 占用 
内 存 。 而 且 长 oplog 的 缺乏 ， 可 能 会 带 来 痛苦 的 回忆 。 
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21-15: 典型 的 oplog 长 度 图 像 





图 21-16 为 较 短 的 oplog 和 变化 的 流量 引起 的 稍 显 不 同 寻常 的 变化 。 运 行 仍旧 正常 ， 
但 该 机 器 上 的 oplog 可 能 太 短 了 (6 到 11 小 时 的 维护 时 段 )。 管 理 员 有 机 会 的 话 应 
将 该 oplog 的 长 度 加 以 延长 。 
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21-16: 每 天 有 一 次 流量 高 峰 的 应 用 oplog 长 度 
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备份 





对 系统 进行 定期 备份 是 很 重要 的 。 对 于 大 多 故障 而 言 ， 备 份 是 很 好 的 保护 措施 ， 只 
有 很 少 的 故障 无 法 通过 恢复 干净 的 备份 得 到 解决 。 本 章 我 们 将 学 习 下 列 有 关 备 份 的 
常用 选项 : 

。 单一 服务 器 的 备份 ， 

。 对 副本 集 进 行 备份 时 的 特别 考虑 ， 

。 如 何 对 一 个 分 片 集群 进行 备份 。 

只 有 在 有 信心 能 在 紧急 情况 下 完成 迅速 部 署 的 情况 下 ， 备 份 才 是 有 用 的 。 所 以 , 无 
论 选 择 了 哪 种 备份 技术 ， 一 定 要 对 备份 及 恢复 备份 的 操作 进行 练习 ， 直 到 了 然 于 心 。 


22.1 对 服务 器 进行 备份 

备份 有 许多 种 方法 。 但 无 论 采 用 哪 种 方法 ， 备 份 操作 都 会 增加 系统 的 负担 : 备份 通 
常 需 将 所 有 数据 读 取 到 内 存 中 。 因 此 ， 通 常情 况 下 ， 应 对 副本 集 的 非 主 节 点 (与 主 
节点 相对 ) 进行 备份 ， 或 在 空 亲 时 段 对 独立 服务 器 进行 备份 。 

如 韭 特殊 声明 ， 本 节 中 的 所 有 技术 均 适用 于 任何 mongod 程序 ， 无 论 是 独立 服务 器 
还 是 副本 集成 员 。 




















22.1.1 文件 系统 快照 
生成 文件 系统 快照 (snapshot) 是 最 简单 的 备份 方法 。 然 而 ， 该 方法 的 实现 需要 两 
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点 条 件 ， 即 文件 系统 本 身 支 持 快照 技术 ， 以 及 在 和 运行 mongod 时 必须 开局 日 记 系统 
(journaling)。 如 系统 满足 这 两 点 条 件 ， 则 该 方法 无 需 其 他 准备 ， 只 需 生 成 快照 即 
可 ， 时 间 不 限 。 


在 恢复 时 ， 确 保 mongod 没有 在 运行 。 从 快照 恢复 数据 的 确切 命令 取决 于 不 同 的 文 
件 系统 ， 不 过 基本 上 就 是 恢复 快照 ， 然 后 启动 mongod 即 可 。 如 果 是 对 正在 运行 的 
系统 生成 快照 ， 那 么 快照 中 的 数据 内 容 本 质 上 相当 于 使 用 kiLL -9 命令 强制 终止 
mongod 后 的 数据 内 容 。 因 此 ，mongod 在 启动 时 会 对 日 志 (journal) 文件 进行 重 放 
(replay) ， 然 后 开始 正常 运行 。 


22.1.2 复制 数据 文件 
另 一 种 备份 方式 是 复制 数据 目录 中 的 所 有 文件 。 没 有 文件 系统 的 支持 ， 我 们 就 无 
法 同时 复制 所 有 文件 ， 因 此 在 进行 备份 时 必须 防止 数据 文件 发 生 改 变 。 可 使 用 


fsyncLock 命令 做 到 这 一 点 : 



































> db.fsyncLock() 


该 命令 锁定 〈lock) 数据 库 ， 禁 止 任何 写 入 ， 并 进行 同步 (fsync)， 即 将 所 有 脏 页 刷 
新 至 磁盘 ， 以 确保 数据 目录 中 的 文件 是 最 新 的 ， 且 不 会 被 更 改 。 

一 旦 运行 了 这 一 命令 ，mongod 会 将 之 后 的 所 有 写 入 操作 加 入 队列 等 待 ， 且 在 解锁 
前 不 会 对 这 些 写 入 操作 进行 处 理 。 注 意 ， 这 一 命令 会 停止 所 有 数据 库 的 写 入 操作 ， 
而 不 只 是 已 连接 的 那个 数据 库 。 


当 fsynclock 命令 返回 命令 行 后 ， 复 制 数据 目录 中 的 所 有 文件 到 备份 位 置 。 在 
Linux 中 ， 可 使 用 以 下 命令 等 : 

















$ cp -R /data/db/* /mnt/external-drive/backup 





确保 复制 了 数据 目录 中 的 每 一 个 文件 和 文件 夹 到 备份 位 置 。 漏 掉 文 件 或 文件 夹 可 能 
会 损坏 备份 或 使 其 不 再 可 用 。 


数据 复制 完成 后 ， 解 锁 数 据 库 ， 使 其 能 够 再 次 进行 写 和 操作: 


> db.fsyncUnLock() 











数据 库 即 开始 正常 处 理 写 入 操作 。 


注意 ， 身 份 验证 和 fsynclock 命令 存在 一 些 锁 定 问题 。 如 果 启 用 了 身份 验证 ， 则 在 
调用 fsyncLock() 和 fsyncUntlock() 期 间 不 要 关闭 shell。 如 果 在 这 期 间断 开 了 
连接 ， 则 可 能 无 法 进行 重新 连接 ， 并 不 得 不 重启 mongod。fsyncLock() 的 设 定 在 
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重启 后 不 会 保持 生效 ，mongod 总 是 以 非 锁定 模式 启动 。 


除 使 用 fsynctock 外 ， 还 可 关闭 mongod， 复 制 文件 ， 然 后 重启 mongod。 关 闭 
mongod 会 将 所 有 更 改 立 即 刷新 到 磁盘 ， 防 止 备份 期 间 出 现 新 的 写 入 操作 。 


若 要 恢复 数据 目录 备份 ， 请 保证 mongod 没有 在 运行 ， 且 所 有 待 恢 复 的 数据 目录 为 
空 。 将 备份 的 数据 文件 复制 到 数据 目录 ， 然 后 启动 mongod。 例 如 ， 下 列 命令 会 使 
用 前 面 提 及 的 命令 恢复 备份 文件 : 


$ cp -R /mnt/external-drive/backup/* /data/db/ 
$ mongod -f mongod.conf 


忽略 那些 有 关 复 制 部 分 数据 目录 的 警告 信息 。 只 要 知道 要 复制 哪些 文件 ， 即 可 使 用 
这 种 方式 备份 单独 的 数据 库 。 例 如 ， 要 备份 名 为 myDB 的 数据 库 ， 只 需 复 制 所 有 
名 为 myDB.* 的 文件 ， 包 括 后 缀 名 为 .ns 的 文件 。 如 使 用 了 --directoryperdb 选 
项 ， 只 需 复 制 该 数据 库 对 应 的 整个 数据 目录 。 


可 复制 数据 库 对 应 的 文件 到 数据 目录 ， 完 成 指定 数据 库 的 恢复 。 如 需 进 行 这 种 部 分 
恢复 ， 应 确保 数据 库 上 一 次 是 正常 关闭 的 。 如 遇 到 崩溃 或 突然 停机 ， 不 要 莹 试 恢复 
一 个 单独 的 数据 库 ， 而 应 用 备份 文件 替换 整个 数据 目录 ， 然 后 启动 mongod， 从 而 
允许 日 记 文 件 进 行 重 放 。 








不 要 同时 使 用 fsyncLock 和 mongodump。 数 据 库 被 锁定 也 许 会 使 得 
心 。 mongodump 永远 处 于 挂 起 状态 ， 这 取决 于 数据 库 正 在 进行 的 其 他 操作 。 

















22.1.3 使 用 mongodump 

最 后 一 种 备份 方式 是 使 用 mongodump。 之 所 以 最 后 提 到 它 ， 是 因为 mongodump 有 
些许 缺点 。 它 备份 和 恢复 的 速度 较 慢 ， 在 处 理 副 本 集 时 存在 一 些 问 题 (参见 22.2 
市 )。 然 而 它 也 存在 以 下 优点 : 当 想 备份 单独 的 数据 库 、 集 合 甚至 集合 中 的 子 集 时 


mongodump 是 个 很 好 的 选择 。 





运行 mongodump --heLp， 可 看 到 mongodump 具有 很 多 选项 。 此 处 我 们 重点 关注 
那些 与 备份 相关 的 实用 选项 。 


要 备份 所 有 数据 库 ， 只 需 运行 mongodump 即 可 。 如 果 在 同一 台 机 器 上 运行 mongod 
和 mongodump， 只 需 指定 mongod 运行 时 占用 的 端口 即 可 : 


$ mongodump -p 31000 


mongodump 会 在 当前 目录 建立 一 个 转 储 (dump) 目录 ， 其 中 包含 了 一 份 所 有 数据 
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的 倾 印 。 转 储 目录 中 的 目录 和 子 目 孙 由 数据 库 和 集合 构成 。 真 正 的 数据 存放 在 扩 
展 名 为 .bson 的 文件 里 ， 其 中 以 BSON 格式 依次 存储 了 集合 中 的 所 有 文档 。 可 使 用 
MongoDB 自 带 的 bsondump 工具 查看 .bson 文件 。 





使 用 mongodump 时 甚至 无 需 服务 器 处 于 运行 状态 : 可 使 用 - -dbpath 选项 来 指定 
数据 目录 ，mongodumop 会 使 用 指定 的 数据 文件 进行 备份 。 


$ mongodump --dbpath /data/db 


如 果 mongod 正在 运行 ， 则 不 应 使 用 - -dbpath 选项 。 





mongodump 存在 一 个 问题 ， 即 它 并 非 进行 快照 备份 ， 也 就 是 说 在 备份 的 过 程 中 ， 系 
统 可 能 会 继续 进行 写 入 操作 。 于 是 可 能 出 现 ， 开 始 备份 时 mongodump 先 对 数据 库 
A 进行 转 储 ， 随 后 在 mongodump 正在 对 数据 库 B 进行 转 储 的 同时 ， 删 除了 数据 库 
A。 然 而 mongodump 已 经 对 数据 库 A 进行 了 转 储 ， 于 是 最 终 转 储 得 到 的 结果 ， 是 
一 个 在 原 服 务 器 上 并 不 存在 的 数据 快照 。 


为 避免 这 种 情况 的 发 生 ， 如 果 运 行 mongod 时 使 用 了 - - repLSet 选项 ， 则 可 使 用 
mongodump 的 - -opLog 选项 。 这 会 将 转 储 过 程 中 服务 器 进行 的 所 有 操作 记录 下 来 ， 
这 样 在 恢复 备份 时 就 会 重新 执行 这 些 操 作 。 这 样 就 可 以 得 到 源 服务 器 上 某 一 时 间 点 
的 数据 快照 。 


























如 果 给 mongodump 一 个 副本 集 的 连接 字 串 (例如 ，setName/seedl,seed2， 
seed3) ， 如 果 备 份 节点 存在 的 话 ， 它 会 自动 选择 一 个 备份 节点 进行 转 储 。 


恢复 mongodump 产生 的 备份 ， 可 使 用 mongorestore 工具 : 





$ mongorestore -p 31000 --oplogReplay dump/ 


如 果 转 储 数据 库 时 使 用 了 - -opLog 参数 ， 运 行 mongorestore 时 必须 使 用 - -oplogReplay 
选项 ， 以 得 到 某 一 时 间 点 的 快照 。 


如 果 在 运行 的 服务 器 上 进行 数据 替换 ， 可 使 用 - -drop 选项 ， 以 在 恢复 一 个 集合 前 
先 删 除 它 。 当 然 此 选项 并 非 必 选 项 。 


随 着 版 本 的 变化 ，mongodump 和 mongorestore 命令 的 具体 作用 和 用 法 发 生 了 改变 。 
为 避免 兼容 性 问题 ， 应 尽量 使 用 同 版 本 的 mongodump 和 mongorestore。 可 运行 
mongodump --version 和 mongorestore --version 来 查看 各 自 的 版 本 。 





1. 使 用 mongodump 和 mongorestore 来 转移 集合 和 数据 库 
可 从 转 储 中 恢复 完全 不 同 的 数据 库 和 集合 。 当 在 不 同 环境 中 使 用 不 同 的 数据 库 名 称 
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(例如 ，dev 和 prod)， 但 集合 的 名 称 相同 时 ， 这 一 特性 会 很 实用 。 


将 一 个 扩展 名 为 .bson 的 文件 恢复 为 特定 的 数据 库 和 集合 ， 只 需 在 命令 行 中 指定 恢 
复 目 标 : 


$ mongorestore --db newDb --collection someOtherColl dump/oldDB/oldColl.bson 


2. 管理 唯一 索引 带 来 的 混乱 

在 任何 集合 中 ， 如 果 存 在 除 _id 以 外 的 其 他 唯一 索引 (unique index)， 则 应 考虑 使 
用 mongodump 和 mongorestore 以 外 的 备份 方式 。 1 唯一 索引 要 求 复制 期 
间 数 据 不 发 生 可 能 破坏 其 唯一 索引 约束 的 改变 安全 的 方法 是 先 想 办 法 “冻结 
数据 ， 然 后 使 用 前 两 市 中 提 到 的 方法 来 进 和 A 


如 果 决 定 使 用 mongodump 和 mongorestore 进行 备份 ， 那 么 在 恢复 备份 时 ， 可 能 
要 对 数据 进行 一 定 的 预 处 理 。 


22.2 ”对 副本 集 进行 备份 

nt ed 备份 : 这 会 为 主 节点 减轻 负担 ， 也 可 以 在 不 影响 应 用 的 
SR 点 (只 要 应 用 不 向 备份 节点 发 送 读 取 请 求 )。 可 使 用 之 前 提 到 过 的 
ey 对 副本 集中 的 成 员 进 行 备份 ， 但 推荐 使 用 文件 系统 快照 或 
复制 数据 文件 的 方式 。 这 两 种 方式 在 应 用 于 副本 集 备 份 节点 时 无 需 做 任何 修改 。 


副本 集 启 用 后 ， 使 用 mongodump 进行 备份 就 不 那么 简单 了 。 首 先 ， 如 果 使 用 
mongodump， 则 必须 在 备份 时 使 用 - -oplog 选项 ， 来 得 到 一 个 基于 某 时 间 点 的 快 
照 ; 否则 备份 的 状态 不 会 和 任何 其 他 集群 成 员 的 状态 相 吻 合 。 在 恢复 时 也 必须 创建 
一 份 oplog， 否 则 被 恢复 的 成 员 就 不 知道 应 该 同步 到 哪里 。 


要 从 mongodump 生成 的 备份 中 ， 对 副本 集成 员 进 行 恢复 ， 可 将 该 成 员 作为 一 个 单 
独 的 服务 器 启动 ， 此 时 要 使 用 一 个 空 的 数据 目录 。 首 先 ， 像 上 一 市 中 提 到 过 的 那样 ， 
使 用 - -oplogReplay 选项 运行 mongorestore。 现 在 它 应 该 包含 了 一 份 完整 的 数据 
副本 ， 但 还 需要 一 份 oplog。 运 行 createCollection 命令 来 建立 oplog: 















































> use Local 
> db.createCollection("oplog.rs", {"capped" : true, "size" : 10000000}) 


以 字 节 为 单位 指定 集合 大 小 。 可 参见 12.4.6 节 ， 了 解 更 多 与 此 相关 的 内 容 。 


现在 需要 填充 oplog。 最 简单 的 方式 是 用 备份 中 的 oplog.bson 文件 来 填充 local. 
oplog.rs 集合 : 
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$ mongorestore -d local -c oplog.rs dump/oplog.bson 


注意 ， 这 并 不 是 对 于 oplog 的 转 储 文件 (dump/local/oplog.rs.bson)， 而 是 进行 转 储 期 
间 发 生 的 操作 。 一 旦 mongorestore 完成 ， 即 可 将 服务 器 作为 副本 集成 员 重新 启动 。 


wh co— 
22.3 ”对 分 片 集群 进行 备份 
不 可 能 对 正在 运行 的 分 片 集群 进行 “完美 地 ”备份 ， 因 为 无 法 及 时 得 到 集群 在 某 一 
时 间 点 完整 状态 的 快照 。 然 而 ， 通 常情 况 下 都 会 避 开 该 限制 ， 因 为 随 着 集群 的 增 大 ， 
从 备份 中 恢复 整个 集群 的 可 能 性 越 来 越 小 。 因 此 ， 在 面 对 分 片 集群 时 ， 我 们 更 关注 
分 块 的 备份 ， 即 单独 备份 配置 服务 器 和 副本 集 。 


在 对 分 片 集群 进行 备份 和 恢复 操作 之 前 ， 应 先 关 闭 均衡 器 。 这 是 因为 在 过 于 混乱 的 
环境 中 是 无 法 得 到 一 份 前 后 一 致 的 快照 的 。 有 关 均 衡器 开启 与 关闭 的 操作 说 明 ， 请 
参见 16.4 节 。 


22.3.1 备份 和 恢复 整个 集群 

当 集 群 很 小 或 正在 进行 开发 时 ， 我 们 可 能 想 要 转 储 和 恢复 整个 集群 。 要 达到 这 一 日 
的 ， 应 先 关闭 均衡 器 ， 然 后 通过 mongos 运行 mongodump。 这 会 在 mongodump 所 
运行 的 机 器 上 建立 所 有 分 片 的 备份 。 


要 恢复 此 种 备份 ， 需 运行 mongorestore 并 连接 到 一 个 mongos。 


关闭 均衡 器 后 ， 可 使 用 文件 系统 快照 或 复制 数据 目录 的 方式 ， 备 份 配置 服务 器 和 每 
一 个 分 片 。 然 而 不 可 避免 的 是 ， 我 们 不 可 能 在 完全 相同 的 时 刻 得 到 这 些 备 份 ， 这 可 
能 造成 问题 。 另 外 ， 在 打开 均衡 器 时 会 进行 数据 合并 ， 在 分 片 中 备份 的 某 些 数据 可 
能 会 由 此 消失 。 


22.3.2 备份 和 恢复 单独 的 分 片 
更 多 时 候 ， 只 需 恢 复 集群 中 的 某 个 单独 分 片 。 如 果 不 是 很 挑剔 的 话 ， 可 使 用 刚刚 在 
前 面 提 到 过 的 单独 服务 器 处 理 方法 进行 分 片 的 备份 恢复 。 


有 一 个 问题 要 着 重 注意 : 假设 在 星期 一 对 集群 进行 了 备份 。 到 了 星期 四 ， 磁 盘 发 生 
损坏 ， 我 们 不 得 不 恢复 备份 。 然 而 ， 在 这 儿 天 里 ， 新 的 数据 块 可 能 移动 到 了 这 一 分 
片上 。 而 周一 进行 的 分 片 备 份 中 并 不 包含 这 些 新 增 的 数据 块 。 也 许 我 们 能 够 使 用 配置 
服务 器 的 备份 ， 找 到 这 些 消失 了 的 数据 块 在 星期 一 时 的 位 置 ， 但 这 比 只 是 恢复 分 片 要 
困难 得 多 。 在 大 多 数 情况 下 ， 人 恢复 分 片 ， 忽 略 那些 消失 的 数据 块 ， 是 更 好 的 选择 。 
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可 直接 连接 到 一 个 分 片上 来 恢复 备份 ， 而 不 需要 通过 mongos。 


22.4 使 用 mongooplog 进 行 增 量 备份 

以 上 提 及 的 备份 方式 ， 即 使 和 上 一 次 备份 时 相 比 ， 只 发 生 了 很 小 的 更 改 ， 也 都 必须 
对 所 有 数据 进行 一 次 完整 的 复制 。 如 果 数 据 和 写 人 量 有 很 大 的 关系 ， 那 么 我 们 可 能 
希望 了 解 一 下 增 量 备份 。 


与 每 天 或 每 周 进 行 一 次 完整 的 数据 复制 不 同 ， 我 们 只 需 进行 一 次 备份 ， 然 后 使 用 
oplog 来 备份 这 之 后 的 所 有 操作 。 这 种 技术 比 之 前 提 及 的 技术 都 要 复杂 ， 因 此 除非 
确实 需要 ， 否 则 应 尽量 选择 其 他 技术 。 

一 技术 需要 两 台 运 行 mongod 的 机 器 ， 即 机 器 A 和 机 器 B。A 是 主机 器 (可 能 是 
ee 


(1) 记录 下 A 的 oplog 中 最 近 一 次 的 操作 时 间 (optime) : 


> op = db.oplog.rs.find().sort({$natural: -1}).limit(1).next(); 
> start = op['ts']['t']/1000 











把 该 数值 记录 在 安全 的 地 方 一 一 等 下 会 用 到 它 。 


(2) 对 数据 进行 备份 ， 使 用 以 上 提 及 的 任何 一 种 方式 ， 得 到 一 份 基于 某 时 间 点 的 备 
份 。 恢 复 备 份 至 B 上 的 数据 目录 。 


(3) 定期 添加 A 上 的 操作 至 B， 从 而 完成 数据 的 复制 。MongoDB 的 发 行 版 中 自 带 
了 一 个 特殊 的 工具 mongooplog 〈 读 作 mon-goop-log)， 将 这 一 操作 变 2 
mongooplog 从 一 台 服 务 器 的 oplog 中 复制 数据 ， 并 将 其 中 的 操作 应 用 在 另 一 
服务 器 的 数据 集 上 。 在 B 上 运行 : 





$ mongooplog --from A --seconds 1234567 


其 中 - -seconds 选项 后 跟 的 参数 ， 应 为 第 一 步 中 计算 出 的 start 变量 和 当前 时 
间 的 差 值 ， 再 额外 加 上 几 秒 (重复 地 重 放 操作 也 好 过 数据 丢失 )。 


这 使 得 备份 更 接近 最 新 的 数据 。 这 种 技术 有 些 像 是 手动 地 同步 一 个 备份 证 点 ， 所 以 
我 们 也 许 只 是 想 在 备份 节点 上 使 用 延 时 复制 以 代替 增 量 备份 。 
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囊 23 
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本 章 将 会 就 部 署 生产 服务 器 给 出 相关 建议 。 具 体 来 讲 ， 包 括 以 下 儿 方 面 : 


。 选 购 硬件 、 挑 选 设置 方法 ，; 

。 使 用 虚拟 化 环境 ， 

。 重要 的 内 核 与 磁盘 IO 设 定 ; 

。 网 络 设置 : 哪些 组 件 之 间 需 要 建立 连接 。 


23.1 设计 系统 结构 





通常 ， 我 们 会 希望 对 系统 进行 优化 ， 以 保证 数据 安全 和 存 取 速度 。 本 节 将 探讨 在 选 





择 磁盘 、RAID (磁盘 阵列 ) 配置 、CPU 等 硬件 以 及 基本 软件 组 件 的 过 程 中 ， 
以 上 目标 的 最 佳 方法 。 


23.1.1 选择 存储 介质 
如 果 只 考虑 性 能 ， 可 按照 以 下 顺序 选择 介质 ， 从 而 进行 数据 存 取 : 


. 内 存 ; 
。 固态 磁盘 ， 
。 机 械 磁盘 。 


可 惜 ， 大 多 情况 下 ， 由 于 预算 有 限 或 数据 过 多 ， 无 法 将 所 有 数据 存 和 内存， 而 





达成 


固态 





磁盘 又 过 于 昂贵 。 因 此 ， 标 准 的 部 署 方案 是 使 用 较 少 的 内 存 空间 (具体 大 小 取决 于 
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总 数据 大 小 ) 和 较 大 的 机 械 磁 盘 空 间 。 这 种 情况 下 需 注意 ， 工 作 集 大 小 应 小 于 内 存 
容量 ， 同 时 应 做 好 在 工作 集 增长 时 进行 设备 扩展 的 准备 。 
如 果 没 有 经 费 限 制 ， 那 就 去 购买 更 多 的 内 存 或 固态 磁盘 。 
从 内 存 中 读 取 数 据 需 几 纳 秒 的 时 间 (比如 100 纳 秒 ) 。 相 反 地 ， 从 磁盘 中 读 取 数据 需 
几 毫 秒 的 时 间 (比如 10 毫秒 ) 。 单 看 这 两 个 数字 很 难 想像 出 二 者 间 的 差距 ， 但 如 果 


我 们 将 它们 按 比例 放大 就 会 明白 : 如 果 访 问 内 存 耗 时 1 秒 钟 ， 则 访问 磁盘 需 耗 时 超 
过 1 天 的 时 间 ! 




















100 纳 秒 x 10 000 000 = 工 秘 

10 毫秒 x 10 000 000 = 1.16 天 
这 些 只 是 近似 的 计算 〈 磁 盘 可 能 略 快 或 内 存 略 慢 ) ， 但 差距 的 大 小 不 会 有 太 大 差别 。 
所 以 我 们 会 想 要 尽量 少 地 访问 磁盘 。 
即使 是 更 快 的 机 械 磁 盘 ， 也 不 会 使 磁盘 读 取 时 间 缩 得 太 多 ， 所 以 没有 必要 花 太 多 钱 
在 这 种 磁盘 上 。 更 多 的 内 存 或 固态 磁盘 效果 会 更 好 。 
一 个 示例 
图 23-1 至 图 23-6 展示 了 固态 磁盘 的 优势 。 这 些 图 片 中 显示 的 ， 是 一 个 在 8 月 8 日 
中 午 上 线 的 新 分 片 的 情况 。 开 始 时 仅 在 机 械 磁盘 上 部 署 了 一 个 分 片 ， 随 后 又 在 固态 
磁盘 上 部 署 了 一 个 新 的 分 片 ， 接 下 来 两 个 分 片 同 时 运行 。 
如 图 23-1 所 示 ， 机 械 磁 盘 的 性 能 峰值 可 接近 每 秒 5000 次 查询 ， 但 一 般 情 况 下 只 能 
做 到 每 秒 几 百 次 查询 。 
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图 23-1: 在 机 械 磁 盘 上 进行 查询 的 情况 


作为 对 照 ， 图 23-2 中 的 图 表 显 示 了 在 固态 磁盘 上 进行 查询 的 状况 。 固 态 磁 盘 的 性 能 
可 保持 每 秒 处 理 5000 次 请 求 ， 峰 值 则 可 达到 每 秒 30000 次 ! 这 一 新 的 分 片 完 全 可 
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以 独立 承担 整个 集群 的 工作 。 








操作 计数 + em- .9 


























23-2: 在 固态 磁盘 上 进行 查询 的 情 ) 


有 关机 械 磁 盘 和 固态 磁盘 的 对 比 中 ， 另 一 点 值得 注意 的 是 频繁 的 磁盘 访问 对 系统 的 
压力 大 小 。 在 使 用 机 械 磁盘 的 服务 器 上 ， 我 们 可 从 其 硬件 监控 信息 (图 23-3) 中 看 
到 ， 磁 盘 工 作 十 分 繁忙 。 图 中 位 于 上 部 的 曲线 表示 IO 延迟 ， 即 CPU 等 待 磁盘 IO 
的 时 间 所 占 总 时 间 的 百分比 。 可 以 看 到 该 百分比 至 少 为 10%， 高 峰 时 常 达到 50% 以 
上 。 这 意味 着 磁盘 成 为 了 限制 性 能 的 短 板 (所 以 此 人 新 添 了 固态 人 磁盘)。 
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23-3: 查询 期 间 的 CPU 使 用 情 ) 


作为 对 比 ， 图 23-4 显示 了 使 用 固态 磁盘 的 机 器 上 CPU 的 使 用 情况 。 图 中 甚至 已 经 
看 不 出 IO 延迟 的 痕迹 ， 上 下 两 条 明显 的 曲线 分 别 表 示 系 统 时 间 (system time) 和 用 
户 时 间 (user time)。 因 此 ， 限 制 这 一 机 器 性 能 的 短 板 就 是 CPU 的 运行 速度 。 图 中 
曲线 超过 了 100%， 这 也 说 明 系 统 利 用 了 多 个 处 理 器 核心 。 将 其 与 图 23-3 进行 对 比 
可 发 现 ， 之 前 的 机 器 由 于 磁盘 IO 速度 过 慢 ， 导 致 得 到 充分 利用 的 处 理 器 核心 其 至 
还 不 足 一 个 。 
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23-4: 查询 期 间 的 CPU 使 用 情 ) 


最 后 ， 在 有 关 锁 时 间 的 图 23-5 中 可 以 看 到 其 对 MongoDB 的 影响 。 在 机 械 磁盘 上 ， 
数据 库 10% 到 25% 的 时 间 处 在 锁 状 态 ， 有 时 峰值 甚至 会 达到 100%。 
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23-5: 查询 期 间 MongoDB 的 锁 比例 


与 图 23-6 中 使 用 固态 磁盘 机 器 上 的 锁 比 例 进 行 比 较 。MongoDB 基本 上 一 直 保 持 非 
锁定 状态 。( 曲 线 开始 部 分 的 凸 起 是 在 加 上 固态 磁盘 之 前 的 数据 读 取 操作 造成 的 。) 
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23-6: 使 用 固态 磁盘 机 器 上 的 锁 比例 
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可 以 看 到 ， 固 态 磁 盘 可 以 承担 比 机 械 磁 盘 多 得 多 的 工作 ， 但 不 幸 的 是 ， 它 们 无 法 被 
量 部 署 。 如 果 能 够 使 用 它们 ， 那 就 用 吧 。 就 算 不 可 能 在 整个 集群 中 使 用 固态 磁盘 ， 
也 应 考虑 尽量 多 得 部 署 ， 然 后 使 用 在 第 15 章 中 提 到 的 强制 热点 数据 模型 进行 优化 。 


注意 ， 通 常 我 们 不 能 向 已 有 的 副本 集中 添加 固态 磁盘 (如 副本 集中 存在 机 械 磁盘 的 
话 )。 如 果 使 用 固态 磁盘 的 机 器 成 为 主 成 员 (primary member)， 并 接管 处 理 它 所 能 
处 理 的 一 切 工作 ， 则 其 他 成 员 受 速度 所 限 ， 无 法 及 时 复制 数据 ， 从 而 被 落 在 后 面 。 因 
此 ， 如 果 要 引入 固态 磁盘 的 话 ， 向 集群 中 增加 一 个 新 的 分 片 不 失 为 一 种 更 好 的 方法 。 


注意 ， 固 态 磁 盘 对 于 处 理 普通 数据 而 言 表现 优异 ， 但 实际 上 机 械 磁盘 完全 可 以 用 于 
记录 日 志 (journal)。 用 机 械 磁 盘 来 记录 日 志 ， 而 用 固态 磁盘 记录 数据 ， 这 样 既 能 市 
省 固态 磁盘 的 空间 ， 也 不 会 影响 性 能 。 



































23.1.2 ”推荐 的 RAID 配 置 

RAID (Redundant Array of Independent Disk， 独 立 磁盘 元 余 阵 列 ， 旧 称 Redundant 
Array of Inexpensive Disk， 廉 价 磁盘 元 余 阵 列 ) 是 一 种 可 以 让 我 们 把 多 块 磁盘 当 作 
单独 一 块 磁盘 来 使 用 的 技术 。 可 使 用 它 来 提高 磁盘 的 可 靠 性 或 性 能 ， 或 二 者 兼 有 。 
一 组 使 用 RAID 技术 的 磁盘 被 称 作 RAID 磁盘 阵列 。 


RAID 根据 性 能 的 不 同 ， 存 在 着 多 种 配置 方式 ， 通 常 兼顾 了 速度 与 容错 性 。 下 列 是 
几 种 最 常见 的 配置 方式 。 








。 RAIDO 
使 用 磁盘 分 割 技术 (disk striping) 将 多 个 磁盘 并 列 起 来 以 提升 性 能 。 每 块 磁盘 保 
存 一 部 分 数据 ， 与 MongoDB 中 的 分 片 类 似 。 由 于 存在 多 个 底层 磁盘 ， 因 此 大 量 
数据 可 在 同一 时 间 写 入 磁盘 内 。 这 一 方式 可 提高 写 入 效率 。 然 而， 如 果 其 中 一 块 
磁盘 发 生 故 障 导 致 数据 丢失 ， 则 这 些 数 据 不 会 存在 备份 。 这 也 会 导致 读 取 速度 变 
慢 (尤其 是 在 Amazon 的 Elastic Block Store 服务 上 )， 因 为 一 些 数 据 卷 可 能 比 另 
一 些 要 慢 。 

















。 RAIDI1 
使 用 镜像 来 提高 可 靠 性 。 同 样 的 数据 副本 会 被 写 入 到 阵列 的 每 一 个 成 员 当 中 。 这 
一 方法 的 性 能 要 比 RAID0 低 ， 因 为 阵列 中 一 个 速度 慢 的 成 员 会 拖 慢 整个 阵列 的 
写 入 速度 。 然 而 ， 如 果 其 中 一 块 磁盘 发 生 故 障 ， 还 可 以 在 阵列 中 的 其 他 成 员 上 找 
到 数据 副本 。 








。 RAIDS 
在 使 用 磁盘 分 割 技术 的 基础 上 ， 额 外 存储 数据 的 校 验 信息 ， 以 防 服务 器 故障 导致 
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数据 丢失 。 一 般 情 况 下 ， 在 一 块 磁盘 发 生 故 障 时 RAID5 可 以 自动 处 理 它 ， 用 户 
并 不 会 感觉 到 故障 的 发 生 。 然 而 ， 这 也 使 得 RAID5 成 为 这 些 RAID 配置 方案 中 
最 慢 的 一 种 ， 因 为 它 需 要 在 写 入 数据 时 计算 校 验 信息 。 而 MongoDB 所 进行 的 恰 
恰 是 典型 的 多 次 少量 的 数据 写 入 工作 ， 因 此 使 用 RAID5 所 带 来 的 代价 尤为 可 观 。 











。 RAID10 
RAID10 是 一 种 RAIDO 和 RAID1 的 组 合 : 数据 被 分 割 以 提升 速度 ， 又 被 复制 镜 
像 以 提高 可 靠 性 。 


推荐 使 用 RAID10， 它 比 RAID0 更 安全 ， 也 能 解决 RAID1 的 性 能 问题 。 有 人 觉得 
在 副本 集 的 基础 上 再 使 用 RAID1 有 些 浪费 ， 从 而 选择 RAID0。 这 是 个 人 喜好 问题 : 
你 原意 为 了 性 能 承担 多 大 的 风险 呢 ? 


不 要 使 用 RAID5， 它 非常 非常 慢 。 


23.1.3 CPU 


MongoDB 对 于 CPU 的 负载 很 轻 (注意 在 图 23-3 和 图 23-4 中 : 两 个 CPU 的 处 理 能 
力 即 可 满足 每 秒 10 000 次 查询 )。 如 需 在 内 存 和 CPU 间 选 择 一 个 进行 硬件 投资 ， 一 
定 要 选择 内 存 。 理 论 上 来 讲 ， 在 进行 读 取 或 在 内 存 中 进行 排序 时 ， 会 耗 尽 多 核 的 运 
算 资 源 ， 但 在 实践 中 这 种 情况 很 少 发 生 。 在 建立 索引 和 进行 MapReduce (一 个 用 于 
大 规模 数据 集 并 行 运算 的 软件 架构 ) 运算 时 ， 对 CPU 的 负载 很 大 ， 但 直到 本 书写 作 
之 时 ， 增 加 处 理 器 核 数 仍 无 法 对 这 两 种 操作 起 到 优化 作用 。 


如 需 在 速度 和 核 数 间 做 出 选择 ， 应 选择 前 者 。 相 比 更 多 的 并 行 运算 ，MongoDB 能 
更 好 地 利用 单 处 理 器 上 的 更 多 周期 进行 运算 。 




















23.1.4 选择 操作 系统 

64 位 Linux 操作 系统 是 运行 MongoDB 的 最 好 选择 。 可 能 的 话 应 选择 它 作为 内 核 系 
统 。CentOS 和 RedHat 企业 版 可 能 是 最 普遍 的 选择 ， 其 他 的 发 行 版 也 应 能 够 运行 
MongoDB (Ubuntu 和 Amazon Linux 也 很 常用 )。 应 使 用 最 新 发 布 的 稳定 版 本 ， 因 
为 老 旧 的 、 存 在 缺陷 的 软件 包 或 内 核 有 时 会 产生 问题 。 


64 位 Windows 系统 也 能 很 好 地 运行 MongoDB。 


MongoDB 对 于 其 他 版 本 Unix 系统 的 支持 并 没有 那么 好 : 如 果 使 用 Solaris 或 者 基于 
BSD 的 系统 ， 那 么 应 该 小 心 ， 因 为 这 些 系 统 发 布 的 MongoDB， 都 存在 〈 至 少 曾经 
存在 ) 很 多 问题 。 
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关于 跨 平 台 兼 容 ， 有 一 点 需 特 别 注意 : MongoDB 在 所 有 系统 中 使 用 同样 的 线路 协议 
(wire protocol) ， 对 于 数据 文件 中 的 内 容 也 使 用 同样 的 格式 进行 存储 ， 所 以 我 们 可 
以 基于 不 同系 统 的 组 合 来 部 署 MongoDB。 例 如 ， 可 在 Windows 系统 上 运行 mongos 
进程 ， 而 在 Linux 上 运行 mongods 来 作为 其 分 片 。 也 可 在 Windows 和 Linux 间 复 制 
数据 文件 ， 而 不 必 考 虑 跨 平 台 兼容 的 问题 。 


如 服务 器 需 处 理 大 量 数据 ， 则 不 要 使 用 32 位 系统 ， 因 为 这 会 限制 我 们 最 多 只 能 
处 理 2 GB 的 数据 (这 是 由 于 MongoDB 使 用 内 存 映 射 的 文件 )。 副 本 集 的 仲裁 
器 和 mongos 进程 可 以 运行 在 32 位 机 器 上 。 不 要 在 32 位 机 器 上 运行 其 他 类 型 的 
MongoDB 服务 。 
































MongoDB 只 支持 小 端 (little-endian， 即 存储 二 进 制 内 容 时 ， 数 字 的 低位 组 置 于 最 
前 面 ) 系统 结构 。 大 部 分 驱动 都 支持 小 端 和 大 端 (big-endian) 两 种 系统 结构 ， 因 此 
客户 端 在 两 种 系统 中 均 可 运行 。 然 而 ， 服 务 器 只 能 运行 在 小 端 结 构 的 机 器 上 。 





23.1.5 ”交换 空间 
应 分 配 一 小 块 交换 空间 ， 以 防 系统 内 存 使 用 过 多 ， 从 而 导致 内 核 终止 MongoDB 的 
运行 。 然 而，MongoDB 通常 并 不 会 使 用 任何 交换 空间 。 


MongoDB 所 使 用 的 大 部 分 内 存 都 是 “不 稳定 的 ”: 只 要 系统 因 某 些 原 因而 请 求 内 存 
空间 ， 这 部 分 内 存 中 的 内 容 就 会 被 刷新 到 磁盘 中 ， 然 后 原 内 存 则 被 替换 成 其 他 内 容 。 
因此 ， 数 据 库 数 据 绝 不 应 该 被 写 入 交换 空间 ， 因 为 它 首先 会 被 刷新 回 磁盘 。 


然而 ，MongoDB 在 需要 对 数据 进行 排序 ， 即 建立 索引 或 进行 排序 操作 时 ， 会 使 用 
交换 空间 。 在 进行 此 类 操作 时 ，MongoDB 会 尽量 不 去 使 用 过 多 内 存 ， 但 如 果 同 时 
进行 很 多 这 种 操作 ， 最 终 就 会 使 用 到 交换 空间 。 


如 果 应 用 程序 在 服务 器 上 用 到 了 交换 空间 ， 则 应 想 办 法 重新 设计 应 用 程序 ， 或 者 减 
少 那 台 服 务 器 上 的 负载 。 









































23.1.6 文件 系统 

在 Linux 系统 上 ， 推 荐 使 用 ext4 或 XFS 文件 系统 作为 数据 卷 。 具 有 一 个 能 够 在 备 
份 时 进行 文件 系统 快照 (filesystem snapshot) 的 文件 系统 是 不 错 的 ， 但 是 会 影响 到 
性 能 。 





不 推荐 使 用 ext3 文件 系统 ， 因 为 它 在 对 数据 文件 进行 预 分 配 时 耗 时 过 长 。MongoDB 
会 定期 分 配 2 GB 大 小 的 数据 文件 并 将 其 内 容 填 充 为 0。 在 ext3 文件 系统 上 ， 这 一 操 
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作 会 造成 儿 分 钟 的 卡 顿 。 如 果 一 定 要 使 用 ext3 文件 系统 ， 有 几 个 相关 的 优化 措施 可 
供 选 择 。 不 过 如 果 可 以 的 话 ， 还 是 应 尽量 使 用 其 他 文件 系统 。 


在 Windows 系统 上 ,使 用 NTFS 和 FAT 文件 系统 都 是 可 以 的 。 





不 要 直接 使 用 被 挂 载 的 NFS 文件 系统 作为 MongoDB 的 存储 区 域 。 有 些 
CES》 版 本 的 客户 端 会 隐瞒 数据 刷新 的 真实 情况 ， 随 机 重新 挂 裁 和 刷新 页 面 缓存 
(page cache) ， 且 不 支持 排他 文件 锁定 (exclusive file lock)。 使 用 NFS 文 
件 系统 会 造成 日 志 (journal) 内 容 损坏 ， 因 此 应 尽量 避免 使 用 。 

















23.2 ”虚拟 化 


运用 虚拟 化 (virtualization) 技术 可 方便 地 使 用 廉价 的 硬件 来 部 署 系 统 ， 并 且 能 够 
迅速 做 出 扩展 。 然 而 ， 虚 拟 化 也 存在 缺点 ， 尤 其 是 无 法 预知 的 网 络 和 磁盘 IO 状况 。 
本 节 将 探讨 有 关 虚 拟 化 的 具体 问题 。 





23.2.1 禁止 内 存 过 度 分 配 

内 存 过 度 分 配 (memory overcommitting) 的 设置 值 决定 了 当 进 程 向 操作 系统 请 求 
过 多 内 存 时 应 采取 的 策略 。 基 于 这 一 设置 ， 内 核 可 能 会 为 进程 分 配 内 存 ， 哪 怕 那 些 
内 存 当 前 是 不 可 用 的 (期望 的 结果 是 ， 当 进程 用 到 这 段 内 存 时 它 已 变 为 可 用 的 )。 
这 种 内 核 向 进程 许诺 不 存在 的 内 存 的 行为 ， 就 叫做 内 存 过 度 分 配 。 这 一 特性 使 得 
MongoDB 无 法 很 好 地 运作 。 


vm.overcommit _ memory 的 值 可 能 为 0 (让 内核 来 猜测 过 度 分 配 的 大 小 ) ， 可 能 为 1 
(满足 所 有 内 存 分 配 请 求 )， 也 可 能 为 2 (分 配 的 虚拟 地 址 空间 最 多 不 超过 交换 空间 
与 一 小 部 分 过 度 分 配 的 和 )。 将 此 值 设 为 2 所 代表 的 意义 最 为 复杂 ， 同 时 也 是 最 佳 选 
择 。 运 行 以 下 命令 将 此 值 设 为 2: 











$ echo 2 > /proc/sys/vm/overcommit memory 


更 改 这 一 设置 后 无 需 重启 MongoDB。 


23.2.2 ”神秘 的 内 存 

有 时 虚拟 层 无 法 正确 地 配备 内 存 。 因 此 ， 一 台 虚 拟 机 号 称 拥 有 100 GB 可 用 内 存 ， 
但 可 能 只 能 使 用 其 中 的 60 GB。 相 反 ， 我 们 曾经 发 现 应 该 只 能 使 用 20 GB 内 存 的 用 
户 ， 却 可 以 将 100 GB 的 数据 集 全 部 存 和 内存 ! 
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没 这 么 幸运 也 无 所 谓 。 如 果 预 读 大 小 设置 合理 ， 而 虚拟 机 就 是 无 法 使 用 全 部 内 存 ， 
这 时 切换 虚拟 机 即 可 。 


23.2.3 处理 网 络 磁 盘 的 IO 问题 

磁盘 速度 的 越发 缓慢 是 使 用 虚拟 化 技术 的 最 大 问题 之 一 。 我 们 通常 要 和 其 他 使 用 者 
共享 磁盘 ， 由 于 每 个 人 都 在 争夺 磁盘 IO ， 因 此 这 加 剧 了 磁盘 的 性 能 负担 。 也 正 因 为 
此 ， 虚 拟 磁盘 的 性 能 无 法 预知 : 当 其 他 使 用 者 并 不 频繁 使 用 磁盘 时 ， 磁 盘 可 以 工作 
地 很 好 ， 而 一 旦 其 他 人 开始 压榨 磁盘 时 ， 其 性 能 就 会 迅速 下 降 。 


另 一 个 问题 是 ， 存 储 设 备 时 与 MongoDB 运行 的 机 器 间 常 常 并 不 存在 物理 上 的 连接 ， 
所 以 即使 磁盘 仅 供 自己 使 用 ， 依 然 会 比 本 地 磁盘 速度 慢 。 这 也 可 能 (虽然 可 能 性 不 
大 ) 导致 MongoDB 服务 器 与 数据 间 失 去 了 网 络 连 接 。 


Amazon 拥有 可 能 是 最 常用 的 网 格 存 储 服务 ， 称 为 EBS (Elastic Block Store， 弹 
性 块 存储 )。EBS 中 的 卷 可 连接 到 EC2 (Elastic Compute Cloud， 弹 性 云 计算 ) 实 
例 ， 并 立即 为 机 器 提供 近 平 任意 数量 的 磁盘 空间 。 从 积极 的 一 面 来 看 ， 这 使 得 备 
份 变 得 非常 简单 (在 备份 布点 上 制作 快照 ， 挂 载 EBS 驱动 到 另 一 个 实例 上 ， 启 动 
mongod)。 但 另 一 方面 ， 性 能 的 起 伏 会 非常 明显 。 


如 希望 提高 性 能 的 可 预测 性 ， 有 以 下 几 个 选项 。 要 保证 系统 性 能 和 期 望 中 的 一 样 ， 
最 直接 的 做 法 是 不 要 将 MongoDB 托管 在 云端 。 将 其 托管 在 自己 的 服务 器 上 可 以 保 
证 性 能 不 会 被 其 他 使 用 者 拖 慢 。 不 过 ， 许 多 人 不 会 选择 这 种 做 法 。 于 是 ， 仅 次 于 前 
一 种 选项 的 就 是 选择 能 够 保证 一 定数 量 IOPS (IO Operations Per Second， 每 秒 IO 
操作 ) 的 实例 。 可 访问 http://docs.mongodb.org， 查 看 最 新 的 推荐 托管 服务 。 


如 果 这 些 选项 都 无 法 实现 ， 而 一 个 高 负载 的 EBS 卷 所 提供 的 磁盘 IO 又 无 法 满足 需 
求 ， 那 么 可 以 使 些 手 段 。 


基本 上 ， 我 们 能 做 的 就 是 监视 MongoDB 所 使 用 的 卷 。 一 旦 某 个 卷 的 速度 变 慢 ， 立 
即 终止 这 一 实例 的 运行 ， 接 着 启动 一 个 使 用 另 一 数据 卷 的 新 实例 。 


可 对 以 下 数据 进行 监视 。 


。 IO 利用 率 的 峰值 (MMS 中 的 “IO 延迟 ”) ， 原 因 显 而 易 见 。 

。 页 缺失 (page faults) 发 生 频 率 的 峰值 。 注 意 ， 应 用 程序 本 身 的 行为 变化 也 会 造 
成 工作 集 的 变化 : 在 部 署 新 版 本 的 应 用 程序 前 ， 应 先 禁用 这 一 不 断 结束 并 切换 实 
例 的 脚本 。 

。 TCP 丢 包 数 的 增长 情况 (在 Amazon 的 服务 上 这 一 点 尤其 严重 : 当 性 能 开始 下 降 时 ， 
会 频繁 发 后 TCP 技 包 的 情况 ) 。 
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。 MongoDB 读 写 队列 的 峰值 (该 数据 可 在 MMS 或 mongo stat 的 qr/qw 列 中 找 
到 )。 


如 果 负 载 发 生 周期 性 变化 ， 应 确保 脚本 考虑 了 计划 任务 的 情况 ， 以 免 其 在 工作 格外 
党 忙 的 星期 一 早上 ， 由 于 执行 计划 任务 造成 的 影响 而 终止 所 有 实例 的 运行 。 


在 使 用 这 些 手段 之 前 ， 应 保证 对 数据 留 有 备份 ， 或 存在 可 与 其 进行 同步 的 数据 集 。 
如 果 让 每 个 实例 都 保 在 上 TB 的 数据 ， 我 们 可 能 会 希望 寻找 替代 方法 。 另 外 ， 该 方 
法 不 一 定 有 效 ， 如 果 新 分 卷 上 的 负 茶 也 很 大 ， 则 会 和 原来 一 样 慢 。 


23.2.4 ”使 用 非 网 络 磁盘 
本 节 中 使 用 了 一 些 Amazon 服务 中 特有 的 词汇 。 然 而 ， 它 也 可 能 适用 于 其 他 提供 商 。 


临时 驱动 器 (ephemeral drive) 是 真正 和 虚拟 机 (VM) 所 在 的 机 器 间 存 在 物理 连接 
的 磁盘 ， 所 以 并 不 存在 很 多 网 络 存储 中 出 现 的 问题 。 本 地 磁盘 依然 可 能 由 于 同一 个 
盒子 (box) 中 其 他 用 户 的 使 用 而 超过 负载 ， 但 通过 使 用 更 大 的 盒子 可 基本 确保 不 会 
与 特别 多 的 用 户 共享 磁盘 。 即 使 是 一 个 稍 小 的 实例 ， 只 要 其 他 使 用 者 没有 造成 大 量 
的 IOPS， 临 时 驱动 器 就 能 经 常 提供 比 网 络 驱动 器 更 好 的 性 能 。 









































它 的 缺点 从 名 字 上 就 可 以 看 出 来 : 这 些 磁盘 是 临时 的 。 如 果 EC2 实例 停止 运行 ， 则 
无 法 保证 重新 启动 实例 后 还 能 在 同一 个 盒子 里 ， 数 据 也 随 之 不 见 了 。 

因此 ， 应 小 心 使 用 临时 驱动 器 。 应 确保 不 要 将 任何 重要 的 ， 或 者 没有 备份 的 数据 存 
放 到 这 些 磁盘 里 。 尤 其 不 要 把 日 记 信 息 存放 在 这 些 临时 磁盘 里 ， 或 是 网 络 另 一 端的 
数据 库 里 。 通 常 来 讲 ， 应 将 临时 驱动 器 当 作 一 个 速度 稍 慢 的 缓存 来 使 用 ， 而 非 一 块 
速度 快 的 磁盘 。 


23.3 ”系统 配置 


以 下 几 个 系统 设置 可 使 MongoDB 的 运行 更 加 稳定 ， 且 主要 与 磁盘 和 内 存 的 访问 有 
关 。 本 市 将 具体 学 习 这 些 选 项 及 其 调整 方法 。 






































23.3.1 禁用 NUMA 


当 机 器 中 只 有 一 个 CPU 时 ， 所 有 内 存 的 存 取 时 间 (access time) 基本 相同 。 当 机 器 
中 开始 有 更 多 的 处 理 器 时 ， 工 程 师 们 发 现 ， 与 其 将 所 有 内 存 与 CPU 的 距离 保持 相同 
(如 图 23-7 所 示 )， 不 如 为 每 个 CPU 都 设置 一 些 距 其 更 近 、 访 问 速度 更 快 的 内 存 ， 
这 样 做 的 效率 会 更 高 。 
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23-7: 一 致 内 存 结构 : 每 个 CPU 访问 所 有 内 存 的 代价 相同 


这 种 每 个 CPU 都 具有 自己 “本 地 ”内 存 的 结构 ， 叫 做 NUMA (Non-uniform Memory 


Architecture， 非 一 致 内 存 结构 ) ， 如 





图 23-8 所 示 。 

















23-8: 非 一 致 内 存 结构 : 每 个 CPU 连接 一 部 分 特定 内 存 ， 访 问 这 些 内存 时 ， 该 CPU 速度 
更 快 。 该 CPU 依然 可 访问 其 他 CPU 连接 着 的 内 存 ， 不 过 代价 会 更 高 


对 于 很 多 应 用 程序 ，NUMA 都 能 够 很 好 地 运作 : 不 同 的 处 理 器 运行 不 同 的 程序 ， 
此 通常 需要 不 同 的 数据 。 然 而 ， 这 一 结构 面 对 数 据 库 ， 尤 其 是 MongoDB 时 ， 则 表 
现 非 常 糟糕 ， 这 是 因为 数据 库 访问 内 存 的 模式 与 其 他 应 用 程序 不 同 。MongoDB 需 
要 使 用 大 量 内 存 ， 同 时 需要 CPU 能 够 访问 其 他 CPU 的 “本 地 内 存 ”。 然 而 ， 很 多 系 























统 上 默认 的 NUMA 设 定 很 难 满足 这 一 需求 。 


CPU 倾向 于 优先 使 用 自身 的 “本 地 内 存 ”， 而 进程 则 倾向 于 优先 使 用 同一 CPU。 这 














意味 着 内 存 通常 不 会 被 平均 地 占用 ， 




















结果 就 是 一 个 处 理 器 使 用 了 其 100% 的 “本 地 





内 存 ”， 而 其 他 处 理 器 只 使 用 了 其 一 小 部 分 内 存 ， 如 图 23-9 所 示 。 














23-9: 一 个 NUMA 系统 的 内 存 占 用 情 ) 
在 图 23-9 的 情况 下 ,假设 CPU1 需要 一 些 内 存 中 没有 的 数据 。 此 时 必须 使 用 其 “本 
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地 内 存 ” 来 存放 这 些 还 没有 被 读 进 内 存 的 数据 ， 但 其 “本 地 内 存 ” 已 经 满 了 。 于 是 
“本 地 内 存 ” 中 的 一 些 数据 就 会 被 移 除 出 去 以 腾 出 空间 ， 哪 怕 CPU2 的 “本 地 内 存 ” 
中 还 有 足够 的 空间 。 这 一 过 程 使 得 MongoDB 的 运行 速度 要 比 期 望 中 慢 得 多 ， 因 为 
只 有 一 小 部 分 内 存 得 到 了 有 效 地 利用 。MongoDB 倾向 于 访问 更 多 的 数据 ， 哪 怕 效 
率 稍 低 ， 而 非 高 效 地 访问 一 小 部 分 数据 。 


禁用 NUMA 是 一 个 能 够 提升 性 能 的 魔法 按钮 ， 一 定 要 按 下 它 。 就 像 使 用 固态 磁盘 
一 样 ， 禁 用 NUMA 可 提升 所 有 事物 的 性 能 


如 果 可 能 的 话 ， 应 通过 BIOS 来 禁用 NUMA。 例 如 ， 如 果 在 使 用 grub， 可 在 grub. 
cfg 中 添加 numa=off 选项 : 




















kernel /boot/vmlinuz-2.6.38-8-generic root=/dev/sda ro quiet numa=off 





如 果 系 统 无 法 在 BIOS 中 禁用 NUMA， 则 可 在 启动 mongod 时 使 用 以 下 选项 : 


$ numactl --interleave=all mongod [options] 


将 这 一 命令 添加 到 所 有 使 用 的 初始 化 脚本 中 。 


此 外 ， 禁 用 zone_reclaim mode 选项 。 可 把 该 选项 认定 为 “超级 NUMA”。 该 
2 CPU 访问 一 页 内 存 时 ， 该 页 内 存 就 会 被 移动 到 此 CPU 的 “本 地 内 

第 ”中 。 于 是 ， 如 果 一 个 CPU 上 的 threadA 和 另 一 CPU 上 的 threadB 同时 访问 
则 每 次 访问 时 ， 该 页 内 存 都 会 被 从 一 个 CPU 的 “本 地 内 存 ” 复 制 到 另 一 
CPU 的 “本 地 内 存 “ 中 。 这 会 非常 、 非 常 得 慢 。 




















要 禁用 zone reclaim mode， 可 运行 
$ echo 0 > /proc/sys/vm/zone reclaim mode 
无 需 重 启 mongod，zone reclaim mode 选项 即 可 生效 。 


启用 NUMA 后 ， 主 机 在 MMS 上 会 被 显示 成 黄色 ， 如 图 23-10 所 示 。 可 通过 “Last 
Ping” 选 项 卡 ， 查 看 使 其 变 成 黄色 的 具体 警告 信息 。 图 23-11 显示 的 警告 信息 可 说 
明 NUMA 是 否 启 用 。 














| 转 Hoss [2 | 加 Agents 国 AgentLog A 








Name 2 Type 


ip-10-62-73-192:2701 primary 
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ep 24 699:691:94 [initandlisten] ", 

ep 24 09: OQ1: 04 [3 sten] ** WARNING: You are running on a pte 

sten] ** We suggest launching mongo' od a ke ein to Voi performance problems:", 
sten] ** numactl1 --interleave=al ongod io other options]", 

ten] 














23-11: 有 关 NUMA 的 启动 警告 信息 


如 果 禁 用 NUMA， 那 么 MMS 上 的 主机 会 重新 显示 为 蓝 色 。( 主 机 显示 为 黄色 也 可 
能 是 由 于 其 他 原因 。 应 同时 查看 其 他 启动 警告 信息 。) 








23.3.2 ”更 智能 地 预 读 取 数据 

预 读 (readahead) 是 一 种 优化 手段 ， 即 操作 系统 从 磁盘 中 读 取 比 实际 请 求 更 多 的 数 
据 。 这 一 优化 基于 的 原理 是 : 计算 机 所 处 理 的 大 部 分 工作 都 是 连续 的 ， 即 如 果 载 入 
了 一 个 视频 文件 的 前 20MB 内 容 ， 则 接 下 来 很 可 能 需要 用 到 紧 随 其 后 的 若干 MB 内 
容 。 于 是 ， 系 统 会 从 磁盘 中 读 取 比 实际 请 求 更 多 的 内 容 ， 并 将 其 存放 到 内 存 中 ， 以 
便 随 后 的 调用 。 


然而 ，MongoDB 并 非 是 典型 的 工作 负载 ， 设 置 预 读 也 是 MongoDB 系统 中 的 常见 问 
题 。MongoDB 倾向 于 从 磁盘 中 随机 读 取 很 多 小 块 的 数据 ， 所 以 默认 的 系统 设置 并 

能 很 好 地 运作 。 如 果 预 读 内 容 过 多 ， 内 存 中 会 逐渐 充满 MongoDB 没有 请 求 的 内 
容 ， 迫 使 MongoDB 更 多 地 访问 磁盘 。 








例如 ， 如 果 和 希望 从 磁盘 中 读 取 一 个 局 区 (512 字 节 ) 的 内 容 ， 则 磁盘 控制 器 实际 上 
可 能 会 读 取 256 个 局 区 ， 因 为 它 假设 我 们 接 下 来 总 会 用 到 这 些 内 容 。 然 而 ， 如 果 完 
全 随机 地 访问 磁盘 数据 ， 则 这 些 预 读 的 扇 区 都 会 被 浪费 掉 。 如 果 内 存 中 包含 了 工作 
集 ， 则 其 中 的 255 个 局 区 会 被 从 内 存 中 移 除 ， 从 而 存放 这 些 不 会 用 到 的 内 容 。 事 实 
上 256 个 扇 区 是 很 小 的 预 读数 量 ， 有 些 系统 会 默认 预 读 上 千 启 区 的 内 容 。 


幸好 ， 有 一 种 很 简单 的 方法 ， 可 供 查看 预 读 设置 是 否 已 带 来 麻烦 : 检查 MongoDB 
驻 留 集 (resident set) 的 大 小 ， 并 与 系统 的 总 内 存 容量 进行 比较 。 


假设 内 存 容量 小 于 数据 大 小 ，MongoDB 的 驻 留 集 大 小 应 稍 小 于 总 内 存 大 小 (例如 ， 
如 果 有 50 GB 的 内 存 ，MongoDB 应 占用 了 至 少 46 GB ) 。 如 驻 留 集 过 小 ， 则 说 明 预 
读 的 内 容 可 能 太 多 了 。 


比较 驻 留 集 和 总 内 存 大 小 这 一 方法 所 基于 的 原理 是 : 被 预 读 的 数据 在 内 存 中 ， 而 
MongoDB 没有 请 求 这 些 数据 ， 因 此 不 会 被 计算 在 MongoDB 的 常 驻 内 存 大 小 中 。 


使 用 blockdev 命令 ， 可 查看 当前 的 预 读 设 定 : 
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$ sudo blockdev --report 


RO RA S9Z BSZ StartSec Size Device 

rw 256 512 4096 0 80026361856 /dev/sda 
rw 256 512 4096 2048 80025223168 /dev/sdal 
rw 256 512 4096 0 2000398934016 /dev/sdb 
rw 256 512 1024 2048 98566144 /dev/sdbl 
rw 256 512 4096 194560 7999586304 /dev/sdb2 


rw 256 512 4096 15818752 19999490048 /dev/sdb3 
rw 256 512 4096 54880256 1972300152832 /dev/sdb4 


这 里 显示 了 每 个 块 设备 的 配置 。RA 列表 示 预 读 大 小 ， 其 单位 是 大 小 为 512 字 节 的 
启 区 数量 。 因 此 ， 该 系统 中 每 个 设备 的 预 读 大 小 都 设置 为 128 KB (512 字 节 / 扇 区 
x256 个 而 区 ) 。 


可 使 用 以 下 命令 ， 并 通过 - -setra 选项 来 更 改 这 一 设 定 值 : 

$ sudo blockdev --setra 16 /dev/sdb3 
那么 ， 预 读 大 小 设 为 多 少 为 好 呢 ? 推荐 数值 是 16 到 256 之 间 。 预 读 大 小 也 不 应 设 得 
过 小 ， 否 则 读 取 一 个 单独 的 文档 则 需 多 次 访问 磁盘 。 如 文档 较 大 (大 于 1MB)， 则 
应 考虑 预 读 更 多 的 内 容 。 如 文档 较 小 ， 预 读 的 数值 则 应 小 一 些 ， 例 如 32。 即 使 文档 
非常 小 ， 也 不 要 将 预 读 大 小 的 值 设 为 16 以 下 ， 这 会 导致 读 取 索引 信息 时 效率 低下 
(索引 桶 (index bucket) 的 大 小 为 8 KB )。 
使 用 RAID 时 ，RAID 控制 器 和 组 成 RAID 的 每 个 分 卷 上 都 应 对 预 读 进行 设置 。 
需 重启 MongoDB 才能 使 预 读 设 定 生 效 ， 这 一 点 看 起 来 有 些 奇 怪 。 更 改 磁 盘 属性 设 
置 难道 不 应 该 立即 对 所 有 正在 运行 的 程序 生效 吗 ? 但 可 惜 ， 进 程 会 在 启动 时 复制 一 
份 预 读 大 小 的 设置 值 ， 并 一 直 按 照 该 值 运作 ， 直 到 进程 停止 运行 。 





























23.3.3 ”禁用 大 内 存 页 面 

启用 大 内 存 页面 (hugepage) 导致 的 问题 和 预 读 过 多 内 容 导致 的 问题 类 似 。 不 要 局 
用 这 一 特性 ， 除 非 : 

。 所 有 数据 都 存放 在 内 存 中 ，; 

。 不 学 虑 数据 大 小 不 断 增长 最 终 超过 内 存 容量 的 情况 。 

MongoDB 需 载 入 数量 众多 的 小 块 内 存 ， 所 以 启用 大 页 面 会 导致 更 多 的 磁盘 IO。 
系统 以 页 面 为 单位 在 磁盘 和 内 存 间 转移 数据 。 页 面 大 小 通常 为 若干 KB (x86 架构 中 
默认 为 4096 字 节 )。 如 果 一 台 机 器 有 很 多 GB 的 内 存 ， 那 么 页 面 大 小 较 小 时 ， 管 理 


这 些 页 面 的 开销 就 会 很 大 ， 速 度 就 会 更 慢 。 而 大 页 面 使 得 页 面 大 小 设 定 值 最 大 可 为 
256 MB (在 ia64 架构 上 ) 。 然 而 使 用 大 页 面 意味 着 要 将 磁盘 上 一 个 局 区 中 几 MB 的 
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数据 存放 在 内 存 中 。 如 果 数 据 不 能 全 部 存 进 内 存 ， 那 么 从 磁盘 中 载 入 大 块 数据 ， 只 
会 更 快 地 填 满 内 存 ， 而 这 些 内 容 随后 又 会 被 移 除 出 内 存 。 此 外 ， 将 对 数据 的 修改 刷 
新 到 磁盘 上 也 会 更 慢 ， 因 为 磁盘 写 入 的 “ 脏 ” 数 据 必须 达到 儿 MB， 而 非 几 KB。 








注意 ，Windows 系统 将 此 特性 称 为 Large Pages 而 非 hugepages。 一 些 版 本 的 
Windows 默认 启用 该 特性 ， 而 另 一 些 版 本 则 不 会 这 样 做 ， 因 此 应 检查 确定 该 特性 是 
否 已 被 禁用 。 


大 页 面 实际 上 是 为 了 优化 数据 库 系 统 的 性 能 而 开发 的 ， 所 以 有 经 验 的 数据 库 系统 管 
理 员 ， 可 能 会 对 本 节 内 容 感到 惊讶 。 然 而 ，MongoDB 对 磁盘 所 进行 的 顺序 访问 比 
一 般 的 关系 型 数据 库 要 少 得 多 。 


23.3.4 选择 一 种 磁盘 调度 算法 

磁盘 控制 器 从 操作 系统 接收 到 请 求 后 ， 会 使 用 一 种 调度 算法 来 决定 处 理 这 些 请 求 的 
顺序 。 有 时 改变 这 一 算法 可 提高 磁盘 性 能 。 但 对 其 他 硬件 和 工作 负载 而 言 ， 可 能 
没什么 效果 。 最 好 的 决定 方法 是 进行 实地 测试 。Deadline (截止 时 间 ) 调度 算法 和 
CFQ (completely fair queueing， 完 全 公平 队列 ) 调度 算法 都 是 不 错 的 选择 。 


有 时 noop (“no-op” 的 缩写 ， 这 是 最 简单 的 调度 算法 ) 调度 算法 是 最 好 的 选择 。 比 
如 说 处 于 虚拟 化 环境 中 使 用 noop 调度 算法 ， 该 调度 算法 可 基本 上 以 最 快 的 速度 把 操 
作 传 递 给 下 层 的 磁盘 控制 器 ， 然 后 让 真正 的 磁盘 控制 器 来 处 理 所 需 的 重新 排序 问题 。 
类 似 地 ， 在 固态 磁盘 上 ，noop 调度 算法 通常 是 最 好 的 选择 。 固 态 磁盘 并 不 存在 机 械 
磁盘 中 的 磁头 位 置 问题 。 
最 后 ， 如 使 用 RAID 控制 器 进行 缓存 ， 则 应 使 用 noop 调度 算法 。 缓 存 的 表现 与 固态 
磁盘 类 似 ， 可 高 效 地 将 写 人 操作 分 配 到 不 同 的 磁盘 上 去 。 


可 在 启动 配置 中 使 用 - -eLevator 选项 来 更 改 调 度 算 法 。 
























































该 选项 之 所 以 被 称 为 elevator (电梯 ) ， 是 因为 调度 算法 的 功能 就 像 一 部 电 
梯 ， 从 不 同 的 楼 层 〈 进 程 /时 间 ) 接收 乘客 (磁盘 IO 请 求 ) ， 再 以 一 种 可 
能 的 最 佳 方案 ， 将 之 送 至 目的 地 。 











很 多 时 候 ， 所 有 的 调度 算法 都 能 很 好 地 运作 ， 可 能 感觉 不 到 太 大 的 区 别 。 





23.3.5 ”不 要 记录 访问 时 间 
系统 默认 记录 文件 最 后 被 访问 的 时 间 。 由 于 MongoDB 访问 数据 文件 十 分 频繁 ， 如 
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果 禁 止 记录 这 一 时 间 ， 则 会 得 到 性 能 上 的 提升 。 在 Linux 系统 中 ， 可 在 /etc/fstab 里 
将 atime 更 改 为 noatime， 以 禁止 记录 访问 时 间 。 


/dev/sda7 /data ext4 rw,noatime 1 2 
要 使 该 设置 更 改 生 效 ， 需 先 重新 挂 载 设备 。 


atime 在 旧 的 内 核 中 (比如 ext3) 问题 更 大 些 ， 因 为 新 的 内 核 中 使 用 reLatime 作 
为 默认 值 ， 使 得 更 新 不 会 那么 频繁 。 此 外 应 注意 ， 将 此 值 设 为 noatime 可 影响 其 他 
程序 使 用 分 区 ， 例 如 mutt 或 备份 工具 。 


类 似 地 ， 在 Windows 系统 下 应 设置 disablelastaccess 选项 来 实现 相同 功能 。 运 
行 以 下 命令 完成 最 后 访问 时 间 记 录 的 禁止 ; 

















C:\> fsutil behavior set disablelastaccess 1 


需 重启 使 设置 更 改 生效 。 该 设置 可 能 影响 远程 存储 (Remote Storage) 服务 。 不 过 
由 于 该 服务 会 自动 移动 数据 到 其 他 磁盘 ， 所 以 本 来 也 无 需 使 用 此 服务 。 





23.3.6 ”修改 限制 


MongoDB 可 能 会 受到 两 个 限制 的 影响 : 


。 进程 可 建立 线程 的 数量 ， 
。 进程 能 够 打开 文件 描述 符 (file descriptor) 的 数量 。 


二 者 通常 应 被 设置 为 无 限制 。 


客户 端 与 MongoDB 服务 器 建立 连接 时 ， 服 务 器 就 会 建立 一 个 线程 来 处 理 这 个 连 
接 上 发 生 的 所 有 活动 。 因 此 ， 如 果 与 数据 库 建立 了 3000 个 连接 ， 数 据 库 就 会 运 
行 3000 个 线程 《再 加 上 几 个 用 于 处 理 与 客户 端 无 关 任 务 的 线程 )。 客 户 端 可 与 
MongoDB 建立 十 几 个 其 至 几 千 个 连接 ， 具 体 数量 取决 于 应 用 服务 器 的 配置 。 


如 果 客 户 端 可 动态 地 创建 更 多 的 子 进程 以 应 对 增加 的 流量 (大 多 应 用 服务 器 都 会 
这 么 做 ) ， 应 确保 这 些 子 进程 数量 保持 在 MongoDB 的 限制 以 内 。 例 如 ， 如 果 有 20 
个 应 用 服务 器 ， 其 中 每 一 个 都 被 允许 创建 100 个 子 进 程 ， 而 每 个 子 进程 又 可 创建 
10 个 线程 连接 到 MongoDB， 那 么 最 多 就 可 能 会 有 20 x 100 x 10=20 000 个 连接 。 
MongoDB 面 对 这 成 千 上 万 的 线程 可 能 不 会 很 高 兴 ， 另 外 如 果 进 程 中 的 可 用 线程 数 
被 耗 尽 ， 则 应 拒绝 新 的 连接 。 


另 一 个 需要 修改 的 限制 是 ，MongoDB 能 够 打开 的 文件 描述 符 数量 。 每 个 连 入 和 连 
出 的 连接 都 要 使 用 一 个 文件 描述 符 ， 如 果 客 户 端 连接 的 数量 真有 如 上 一 段 描述 的 那 









































378 | 第 23 章 


样 ， 则 会 打开 20 000 个 文件 描述 符 〈 恰 好 这 也 是 MongoDB 所 允许 的 最 大 数量 )。 


特别 是 mongos， 它 会 与 很 多 分 片 建立 连接 。 当 客户 端 连接 到 mongos 并 发 起 请 求 
时 ，mongos 向 所 有 所 需 的 分 片 建立 连接 ， 以 完成 请 求 。 于 是 ， 如 果 和 集群 中 有 100 个 
分 片 ， 而 客户 端 连 接 到 mongos 并 尝试 查 询 所 有 数据 ，mongos 就 必须 问 每 个 分 片 建 
并 一 个 连接 ， 共 计 100 个 连接 。 这 会 促使 连接 数 的 快速 增长 ， 可 依照 之 前 的 例子 想 
象 一 下 。 假 设 一 个 配置 不 当 的 应 用 服务 器 向 mongos 进程 建立 了 100 个 连接 。 也 就 
是 说 对 所 有 分 片 建立 的 连接 数 是 100 个 连 入 连接 x 100 个 分 片 =10 000 个 ! (此 处 假 
设 每 个 连接 上 的 查询 都 没有 特定 目标 ， 这 种 设计 很 差劲 ， 所 以 这 个 例子 有 些 极端 ) 。 


因此 可 做 些 调 整 : 很 多 人 特意 使 用 maxConns 选项 配置 mongos 进程 ， 使 其 只 允许 
特定 数量 的 连 入 连接 。 这 种 方法 可 确保 客户 端的 正常 工作 。 


文件 描述 符 数 量 的 限制 也 应 该 得 到 增加 ， 因 为 其 默认 值 (通常 是 1024) 过 低 。 将 文 
件 描述 符 数 目的 最 大 值 设 为 无 限制 ， 如 果 觉 得 不 保险 的 话 ， 可 将 其 设 为 20 000。 每 
个 系统 更 改 这 些 限 制 的 方法 有 所 不 同 ， 但 通常 来 讲 ， 应 确保 对 软 限制 和 硬 限制 都 进 
行 了 修改 。 硬 限制 是 内 核 级 的 ， 只 有 管理 员 可 进行 更 改 ， 而 软 限制 则 是 用 户 级 的 。 


如 果 连 接 数 限 制 为 1024，MMS 会 在 主机 列表 中 将 主机 名 称 显 示 为 黄色 以 示警 告 
(如 上 述 NUMA 的 例子 一 样 ) 。 如 果 限 制 值 过 低 ,“Last Ping” 选 项 卡 中 会 出 现 类 似 
23-12 中 所 示 的 信息 。 












































Your database host/server has a low ulimit setting configured. For more information, see the MongoDB docs . 








"port": 27917， 
mmet ParameferaA11"” 工 





23-12: MMS 中 有 关 限 制 值 过 低 的 警告 信息 


即使 不 使 用 分 片 ， 应 用 程序 建立 的 连接 数 也 很 少 ， 也 应 至 少将 软 硬 限制 均 增 至 
4096。 这 样 ，MongoDB 就 不 再 会 为 此 发 出 警告 ， 也 给 了 我 们 一 些 喘息 空间 ， 有 备 
无 患 s 


23.4 网 络 配置 


本 市 我 们 将 学 习 哪 些 服务 器 间 应 建立 连接 。 通 常情 况 下 ， 出 于 网 络 安全 (和 灵敏 度 ) 
考虑 ， 我 们 会 希望 限制 MongoDB 服务 器 的 网 络 连 接 。 注 意 ， 多 服务 器 MongoDB 
的 部 署 应 能 够 处 理 网 络 被 隔断 的 情况 ， 但 并 不 推荐 将 其 作为 一 般 情况 下 的 部 署 方 式 。 


在 独立 服务 器 上 ， 客 户 端 须 能 够 与 mongod 建立 连接 。 























部 署 MongoDB | 379 


副本 集成 员 必须 能 够 连接 到 其 他 各 成 员 。 客 户 端 必须 能 够 连接 到 所 有 可 见 的 非 仲 
裁 器 成 员 。 根 据 网 络 配 置 的 不 同 ， 成员 可 能 会 尝试 与 自身 建立 连接 ， 所 以 应 允许 
mongods 建立 到 自身 的 连接 。 


分 片 要 稍微 复杂 一 些 。 它 由 以 下 四 种 组 件 组 成 : 





。 mongos 服务 器 ; 

分 片 ; 

。 配置 服务 器 ， 

。 客户 端 。 

连接 要 求 可 概括 为 以 下 三 点 : 

。 客户 端 必须 能 够 连接 到 一 个 mongos 服务 器 ， 

。 mongos 服务 器 必须 能 够 连接 到 众 分 片 和 配置 服务 器 ，; 
。 分 片 必须 能 够 连接 到 其 他 分 片 和 配置 服务 器 。 

表 23-1 中 显示 了 完整 的 连接 需求 。 


表 23-1 分 片 连 接 

















连 接 从 服务 器 发 出 

与 服务 器 建立 mongos 分 片 配置 服务 器 客户 端 

mongos 不 需要 不 需要 不 需要 需要 

分 片 需要 需要 不 需要 不 推荐 

配置 服务 器 需要 需要 不 需要 不 推荐 

客户 端 不 需要 不 需要 不 需要 与 MongoDB 无 关 





表格 中 有 三 种 可 能 的 值 。 


。“ 需 要 ”表示 二 者 间 应 建立 连接 ， 以 保证 分 片 正常 运行 。 若 由 于 网 络 问 题 导致 连 
接 中 断 的 话 ，MongoDB 会 尝试 进行 平稳 退化 ， 以 尽 可 能 地 解决 问题 ， 但 不 应 故 
意 做 如 此 配置 。 

。“ 不 需要 ”表示 二 者 不 会 在 指定 方向 进行 通信 ， 也 就 无 需 建立 连接 。 

。“ 不 推荐 ”表示 二 者 间 不 会 进行 通信 ,但 用 户 的 错误 操作 则 会 促使 相互 通信 的 完成 。 
例如 ， 推 荐 做 法 是 限制 客户 端 只 与 mongos 建立 连接 ， 而 不 与 分 片 建立 连接 ， 这 

样 客户 端 就 不 会 在 无 意 中 直接 向 分 片 请 求 内 容 。 类 似 地 ， 客 户 端 应 无 法 直接 访问 

配置 服务 器 ， 以 防 意 外 更 改 配置 数据 。 


注意 ，mongos 进程 和 分 片 会 主动 与 配置 服务 器 进行 通信 ， 但 配置 服务 器 不 会 与 任何 
其 他 市 点 ， 其 或 是 另 一 个 配置 服务 器 建立 连接 。 
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分 片 在 进行 迁移 时 必须 进行 通信 ， 因 为 可 直接 连接 到 其 他 分 片 以 传输 数据 。 
如 前 所 述 ， 组 成 分 片 的 副本 集成 员 应 能 够 与 其 自身 建立 连接 。 


23.5 ”系统 管理 


本 方 我 们 将 学 习 一 些 在 部 署 服务 器 前 应 注意 的 常见 问题 。 








23.5.1 时钟 同步 
一 般 来 讲 ， 各 系统 间 的 时 钟 误 差 不 超 过 一 秒 是 最 为 安全 的 。 副 本 集 应 能 够 处 理 儿 平 
所 有 的 时 钟 偏 移 (clock skew)。 分 片 则 能 够 处 理 一 部 分 时 钟 偏 移 (如 偏 移 超过 儿 分 
钟 ， 日 志 中 会 出 现 警 告 信息 )， 但 最 好 将 偏 移 降 至 最 小 。 使 时 钟 保持 同步 ， 也 使 得 查 
看 日 志 内 容 变 得 更 加 方便 。 


为 保持 时 钟 同步 ， 在 Windows 系统 中 可 使 用 w32tm 工具 ， 而 在 Linux 系统 中 则 可 
使 用 ntp 后 台 进 程 。 








23.5.2 OOM Killer 


在 极 偶然 的 情况 下 ，MongoDB 会 因 分 配 过 多 内 存 而 被 OOM Killer (Out of Memory 
killer， 内 存 溢出 杀手 ) 盯 上 。 尤 其 是 在 建立 索引 时 发 生 ， 这 也 是 MongoDB 的 常 驻 
内 存 会 给 系统 造成 压力 的 少 有 情况 之 一 。 

如 果 MongoDB 进程 突然 被 终止 ， 而 日 志 中 又 没有 出 现 错误 或 退出 信息 ， 则 应 检 
查 /var/log/messages (或 内 核 记录 这 些 内 容 的 其 他 位 置 )， 查 看 是 否 存在 关于 终止 
mongod 进程 的 信息 。 


如 果 内 核 因为 过 度 使 用 内 存 而 终止 了 MongoDB 进程 ， 则 应 在 内 核 日 志 中 看 到 如 下 

















kernel: Killed process 2771 (mongod) 
kernel: init invoked oom-killer: gfp mask=0x201d2, order=0, oomkilladj=0 


如 果 开 启 了 日 志 系 统 (journaling)， 此 时 重启 mongod 进程 即 可 。 如 没有 开启 日 志 
系统 ， 则 应 恢复 备份 ， 或 重新 与 副本 进行 同步 。 

当 系 统 没 有 交换 空间 ， 并 且 可 用 内 存 开 始 减少 时 ，OOM killer 就 会 变 得 尤为 敏感 ， 
因此 为 避免 麻烦 ， 不 妨 配置 适当 的 交换 空间 。MongoDB 应 不 会 用 到 该 交换 空间 ， 
但 这 可 让 OOM Killer 放松 下 来 。 
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如 果 OOM killer 终止 了 一 个 mongos 进程 ， 重 启 它 即 可 。 


23.5.3 关闭 定期 任务 

检查 是 否 存在 计划 任务 或 后 台 进 程 ， 它 们 可 能 定期 被 激活 并 消耗 系统 资源 ， 比 如 软 
件 包 管 理 器 的 自动 更 新 。 这 些 程序 被 激活 后 会 消耗 大 量 的 内 存 和 CPU 资源 ， 然 后 又 
消失 不 见 。 我 们 不 会 希望 在 生产 服务 器 上 见 到 这 些 东 西 。 
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附录 A 
安 交 MongoDB 





MongoDB 的 二 进 制 文件 可 用 于 Linux、Mac OS X、Windows 和 Solaris 系统 。 这 意 
味 着 在 大 部 分 平台 中 ， 均 可 从 http://www.mongodb.org/downloads 下 载 一 份 代码 ， 
解压 并 运行 二 进 制 文件 。 

MongoDB 的 运行 需要 一 个 日 录 来 写 入 数据 库 文件 ， 并 需要 一 个 端口 来 监听 连接 。 
本 节 我 们 将 学 习 MongoDB 在 Windows 和 非 Windows 0 Max、Solaris) 两 
种 操作 系统 上 的 安装 过 程 。 





提 及 “安装 MongoDB” 时 ， 我 们 通常 指 的 是 对 mongod 进行 配置 。mongod 是 核心 
数据 库 服务 器 ， 可 作为 独立 服务 器 或 副本 集成 员 。 大 多 时 候 ，mongod 是 我 们 使 用 
的 MongoDB 进程 。 


A.1 选择 一 个 版 本 


MongoDB 所 使 用 的 版 本 管理 相当 简单 ， 偶数 号 为 稳定 版 ， 奇 数 号 为 开发 版 。 例 如 ， 
以 2.4 开头 的 版 本 都 是 稳定 版 ， 如 2.4.0、2.4.1、 和 2.4.15。 以 2.5 开头 的 则 是 开发 
版 ， 如 2.5.0、2.5.2 和 2.5.10。 接 下 来 我 们 以 2.4 和 2.5 版 本 为 例 ， 来 演示 版 本 变化 
的 时 间 线 。 


(1) MongoDB2.4.0 发 布 。 这 是 一 项 重大 发 布 (major release)， 有 大 量 的 更 新 日 志 
(changelog) ; 








(2) 开发 者 在 开始 着 手 开 发 2.6 版 本 (下 一 个 重大 发 布 的 稳定 版 本 ) 后 ， 发 布 了 
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2.5.0 版 本 。 这 是 新 的 开发 分 支 ， 与 2.4.0 版 本 很 相似 ， 但 可 能 包含 一 两 个 额外 的 
特性 ， 也 可 能 存在 一 些 漏洞 。 

(3) 随 着 开发 者 继续 增加 新 的 特性 ， 他 们 发 布 了 2.5.1 和 2.5.2 等 版 本 。 这 些 版 本 不 
应 用 于 生产 环境 中 。 

(4) 一 些小 的 漏洞 修复 可 能 用 于 旧 的 2.4 分 支 上 (这 一 做 法 称 为 backport) ， 随 后 发 
布 了 2.4.1、2.4.2 等 版 本 。 开 发 者 会 慎重 考虑 这 一 做 法 。 稳 定 版 本 中 很 少 增加 新 
的 特性 ， 通 常 只 进行 漏洞 修复 。 

(5) 在 2.6.0 达到 所 有 重大 既定 目标 后 ， 版 本 2.5.7 (或 任何 最 新 的 开发 版 本 ) 就 会 变 

为 2.6.0-rc0。 

(6) 在 对 2.6.0-rc0 进行 大 量 测试 后 ， 一 般 会 发 现 一 些 需 要 修复 的 小 漏洞 。 开 发 者 修 
复 这 些 漏洞 并 发 布 2.6.0-rcl 版 本 。 

(7) 开发 者 重复 第 6 步 直到 没有 新 的 明显 漏洞 ， 然 后 2.6.0-rc2 (或 任何 此 时 的 最 新 版 
本 ) 会 重 命名 为 2.6.0。 


(8) 从 第 1 步 重 新 开始 ， 此 时 所 有 版 本 号 增加 0.2。 




















在 MongoDB 的 漏洞 追踪 系统 (https:Wijira.mongodb.org/secure/Dashboard.jspa) 上 ， 
存在 着 核心 服务 器 路 线 图 。 查 看 该 路 线 图 ， 可 得 知 下 一 个 稳定 版 本 的 发 布 时 间 。 


若 在 生产 环境 中 运行 ， 则 应 使 用 稳定 版 本 。 如 计划 在 生产 环境 中 使 用 开发 版 本 ， 应 
先 在 邮件 列表 (mailing list) 或 IRC 中 询问 开发 者 的 建议 。 


如 果 刚 刚 开始 一 个 项 目的 开发 ， 使 用 开发 版 本 也 许 是 更 好 的 选择 。 在 将 其 部 署 至 生 
产 环境 中 时 ， 带 有 所 使 用 特性 的 稳定 版 本 可 能 已 经 发 布 了 (MongoDB 尽量 做 到 每 6 
个 月 发 布 一 个 稳定 版 本 )。 然 而 ， 可 能 也 会 遇 到 一 些 系统 漏洞 ， 这 会 使 新 用 户 感到 非 
常 失望 ， 因 此 必须 对 此 进行 权衡 和 取舍。 


A.2 在 Windows 系 统 中 安装 


要 在 Windows 系统 中 安装 MongoDB ， 应 在 MongoDB 下 载 页 中 下 载 适 用 于 Windows 
的 zip 压缩 包 。 参 见 上 一 节 内 容 选 择 合 适 的 版 本 。 发 行 版 本 分 为 Windows32 位 和 64 
位 两 种 ， 选 择 与 系统 相符 的 即 可 。 点 击 链接 下 载 .zip 文件 并 解压 。 


现在 需要 建立 一 个 目录 ， 以 便 MongoDB 能 够 写 入 数据 库 文件 。MongoDB 默认 尝 
试 使 用 当前 驱动 器 的 \data\db 目录 作为 其 数据 目录 (例如 ， 如 在 C: 下 运行 mongod， 
则 会 使 用 C:\dataxdb)。 可 在 文件 系统 中 的 任何 位 置 建 立 这 一 目录 或 其 他 空 目录 。 如 
不 使 用 \data\db 目录 ， 则 需 在 启动 MongoDB 时 指定 路 径 ， 有 具体 做 法 马上 就 会 讲 到 。 
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既然 已 经 有 了 数据 目录 ， 则 应 打开 命令 提示 符 (cmd.exe)。 定 位 到 解压 后 的 
MongoDB 二 进 制 文件 所 在 目录 ， 然 后 运行 : 


$ bin\mongod.exe 
如 使 用 C:\data\db 以 外 的 目录 ， 需 使 用 - -dbpath 参数 指定 其 位 置 : 


$ bin\mongod.exe --dbpath C:\Documents and Settings\Username\My Documents\db 


第 20 章 介绍 了 更 多 的 常用 选项 。 也 可 运行 mongod.exe --help 来 查看 所 有 选项 。 


作为 一 个 服务 安装 
MongoDB 也 可 作为 Windows 的 一 个 服务 (service) 安装 。 只 需 以 全 路 径 运 行 ， 避 
免 空格 ， 并 使 用 --install 选项 ， 即 可 完成 安装 。 例 如 : 


$ C:\mongodb-windows-32bit-1.6.0\bin\mongod .exe 
--dbpath "\"C:\Documents and Settings\Username\My Documents\db\"" --install 


之 后 就 可 以 使 用 控制 面板 来 启动 和 停止 MongoDB 服务 。 


A.3 在 POSIX 系 统 (Linux、Mac OS X、Solaris) 
中 安装 

依据 A.1 节 的 内 容 ， 选 择 MongoDB 的 版 本 。 前 往 MongoDB 下 载 页 ， 选 择 适 合 操 

作 系统 的 版 本 。 


如 使 用 的 是 Mac 系统 ， 应 检查 系统 是 32 位 的 还 是 64 位 的 。Mac 对 于 版 

心 。 本 的 要 求 十 分 严格 ， 如 版 本 选择 错误 ， 则 会 拒绝 启动 MongoDB， 并 给 

算出 令 人 不 解 的 错误 信息 。 可 点 击 左上 角 的 苹果 标志 ， 选 择 关 于 该 台 Mac 
(About This Mac) 选项 ， 检 查 操作 系统 版 本 。 











必须 创建 一 个 目录 以 便 数据 库 写 和 文件。 数据 库 会 默认 使 用 /data/db 目录 ， 也 可 指 
定 其 他 目录 。 如 建立 了 默认 目录 ， 则 应 确保 拥有 正确 的 写 权 限 。 可 通过 如 下 命令 ， 
创建 目录 并 设置 权限 : 




















$ mkdir -p /data/db 
$ chown -R $USER: $USER /data/db 


如 有 必要 ， 可 使 用 mkdir -p 命令， 建立 指定 目录 及 其 所 有 父 目录 (例如 ， 如 果 / 
data 目录 不 存在 ， 则 会 先 建立 /data 目录 ， 然 后 再 建立 /data/db 目录 )。 使 用 chown 
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命令 ， 可 改变 /data/db 的 所 有 权 ， 以 便 实 现 用 户 对 其 的 写 入 。 当 然 ， 也 可 在 home 
文件 夹 中 建立 一 个 目录 ， 并 在 启动 数据 库 时 指定 其 作为 MongoDB 的 数据 目录 ， 从 
而 避 开 权限 问题 。 

















将 从 http://www.mongodb.org 下 载 的 .tar.gz 文件 解压 缩 。 


$ tar zxf mongodb-linux-i686-1.6.0.tar.gz 
$ cd mongodb-linux-i686-1.6.0 


现在 可 启动 数据 库 : 





$ bin/mongod 





如 果 想 改变 数据 库 的 位 置 ， 可 使 用 - -dbpath 选项 指定 位 置 : 
$ bin/mongod --dbpath ~/db 


有 关 最 常用 的 选项 内 容 ， 可 参见 第 20 章 中 的 内 容 。 也 可 运行 mongod - -help 来 查 
看 所 有 选项 。 


使 用 包 管 理 器 安装 

这 些 系 统 中 存在 很 多 包 管 理 器 ， 可 用 于 MongoDB 的 安装 。 如 选择 使 用 包 管 理 器 进 
行 安 装 ， 可 选择 RedHat、Debian 和 Ubuntu 系统 提供 的 官方 安装 包 ， 以 及 其 他 系统 
提供 的 非 官 方 安装 包 。 如 选择 使 用 非 官方 版 本 ， 应 确保 使 用 的 版 本 相对 较 新 。 








OS X 系统 提供 有 Homebre 和 MacPorts 两 种 非 官方 安装 包 。 如 选择 MacPorts 版 本 ， 
请 注意 : 它 会 耗 时 若干 小 时 编译 所 有 的 Boost 库 ， 这 是 安装 MongoDB 的 必 备 前 提 。 
开启 下 载 后 就 去 睡觉 吧 。 


无 论 使 用 哪 种 包 管理 器 ， 都 应 先 明 确 MongoDB 的 日 志 (log) 文件 位 置 ， 而 不 要 等 
到 出 现 问 题 后 才 去 找 它们 。 确 保 在 发 生 任 何 可 能 的 问题 前 ,日 志 已 保存 完好 。 
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附录 B 
深入 MongoDB 





高 效 地 使 用 MongoDB， 并 不 需要 对 MongoDB 的 内 部 机 理 有 深入 的 了 解 。 但 相关 
工具 的 开发 者 、 代 码 贡 献 者 ， 或 单纯 想 知 其 所 以 然 的 人 ， 可 能 会 对 此 感 兴 趣 。 本 
附录 包括 一 些 相关 的 基本 内 容 。 可 在 https://github.com/mongodb/mongo 处 得 到 
MongoDB 的 源 代码 。 











B.1 BSON 


MongoDB 中 的 文档 是 一 个 抽象 概念 ， 文 档 具 体 的 存在 形式 取决 于 使 用 的 驱动 程 
序 和 编程 语言 。 因 为 文档 被 广泛 应 用 于 MongoDB 的 通讯 ， 因 此 还 需要 一 种 由 
MongoDB 生态 系统 里 所 有 了 驱动 程序 、 工 具 和 进程 共享 的 文档 。 这 种 文档 格式 叫做 
Binary JSON (二 进 制 JSON), 或 称 BSON ( 没 人 知道 其 中 的 J 去 哪 了 )。 


BSON 是 一 种 轻 量 的 二 进 制 格式 ， 可 用 一 串 字 节 来 描述 任何 MongoDB 文档 。 数 据 
库 能 够 理解 BSON 格式 ，BSON 也 是 文档 存放 于 磁盘 中 的 格式 。 


驱动 程序 在 使 用 文档 进行 插入 、 查 询 或 其 他 操作 时 ， 会 先 将 文档 编码 成 BSON 格 
式 ， 然 后 发 送 给 服务 器 。 同 样 地 ， 服 务 器 将 文档 返回 给 客户 端 时 ， 也 是 以 BSON 格 
式 进 行 的 。 驱 动 程序 会 先 对 此 BSON 数据 进行 解码 ， 然 后 再 发 送 给 客户 端 。 


BSON 格式 主要 有 以 下 三 大 优点 。 
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。 高 效 
BSON 可 高 效 描述 数据 ， 而 无 需 占 用 过 多 额外 空间 。 在 最 坏 的 情况 下 ， 其 效率 比 
JSON 低 一 点 。 而 在 最 好 的 情况 下 (如 存储 二 进 制 信息 或 大 数据 时 )， 其 效率 要 高 
出 JSON 很 多 。 





。 本 遍历 性 
在 有 些 情况 下 ，BSON 以 空间 效率 为 代价 ， 使 自身 更 容易 被 遍 历 。 例 如 ， 字 符 串 
值 会 被 加 上 一 个 前 级 用 以 表示 长 度 ， 而 不 是 依赖 于 中 止 符号 来 判断 字符 的 末尾 。 
这 一 特性 在 MongoDB 服务 器 需 对 文档 进行 内 省 (introspect) 时 十 分 实用 。 





。 高 性 能 
最 后 ，BSON 可 快速 进行 编码 和 解码 。 它 使 用 类 C 类 型 表示 ， 这 在 大 部 分 编程 语 
言 中 可 快速 运作 。 


如 需 了 解 BSON 的 详细 规范 ， 请 查看 http://www.bsonspec.org。 


B.2 线路 协议 

驱动 程序 使 用 一 个 轻 量 的 TCP/IP 线路 协议 (wire protocol) 来 访问 MongoDB 服务 
器 。 可 在 MongoDB 的 wiki 页 面 找 到 该 协议 的 文档 ， 但 其 基本 上 就 是 对 BSON 数据 
进行 了 简单 的 包装 。 例 如 ， 一 个 表示 插入 文档 的 消息 包含 了 20 字 节 的 头 信息 (其 中 
包括 告知 服务 器 执行 插入 操作 的 代码 以 及 消息 的 长 度 )、 被 插入 的 集合 名 称 和 插入 的 
BSON 文档 列表 。 


B.3 数据 文件 


在 MongoDB 数据 目录 (默认 下 是 /data/db/) 中 ， 每 个 数据 库 都 对 应 若干 文件 。 每 
个 数据 库 都 拥有 一 个 单独 的 扩展 名 为 .ns 的 文件 和 几 个 数据 文件 ， 这 些 数 据 文 件 
以 单调 增长 的 数字 为 扩展 名 。 于 是 ， 名 为 foo 的 数据 库 会 被 存储 在 foo.ns、foo.0、 
foo.1、foo.2 等 文件 中 。 


每 个 数据 文件 的 大 小 是 前 一 个 文件 大 小 的 二 倍 ， 直 到 达到 最 大 值 2 GB。 这 一 特性 使 
得 较 小 的 数据 库 不 会 浪费 过 多 的 磁盘 空间 ， 而 较 大 的 数据 库 可 使 用 连续 的 磁盘 空间 。 


MongoDB 也 会 预 分 配 数据 文件 ， 以 保证 性 能 稳定 (使 用 - -noprealloc 选项 可 关 
闭 这 一 特性 )。 预 分 配 在 后 台 运 行 。 数 据 文件 一 旦 被 填 满 ， 就 会 开始 进行 预 分 配 。 这 
意味 着 MongoDB 服务 器 总 会 为 每 个 数据 库 维 护 一 个 额外 的 空白 数据 文件 ， 以 避免 
文件 分 配 失 败 。 
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B.4 命名 空间 与 区 段 


在 数据 文件 中 ， 数 据 库 被 按照 命名 空间 (namespace) 进行 组 织 ， 每 个 命名 空间 中 存 
放 有 特定 集合 的 数据 。 集 合 中 的 文档 和 索引 都 拥有 自己 的 命名 空间 。 命 名 空间 的 元 
信息 (metadata) 存放 在 数据 库 的 .ns 文件 中 。 


每 个 命名 空间 中 的 数据 在 磁盘 上 会 被 分 为 儿 组 数据 文件 ， 即 区 段 (extent)。 图 B-1 
中 名 为 foo 的 数据 库 有 三 个 数据 文件 ， 其 中 第 三 个 是 预 分 配 的 空 文件 。 而 前 两 个 数 
据 文件 ， 则 分 成 了 分 属于 不 同 命名 空间 的 区 段 。 














foo.1 [EC foo.test 
00000000000 | foo bar 
00000000000 [|] ob 
00000000000 [| foo.$freelist 
00000000000 [010X070 预 分 配 空间 
foo.2 国 亿 160601610L010101010) 


00000000000 
00000000000 
00000000000 














B-1: 命名 空间 与 区 段 


图 B-1 中 显示 了 几 点 有 关 命 名 空 ER 每 个 命名 空间 可 拥有 几 个 不 
同 的 区 段 ， 这 几 个 区 段 在 磁盘 上 不 见得 一 定 是 连续 的 。 就 像 数 据 库 的 数据 文件 一 样 ， 
为 命名 空间 新 分 配 的 区 段 ， 其 大 小 会 不 断 增长 。 命名 空间 会 浪费 一 定 的 空间 ， 又 
要 尽量 保证 其 在 磁盘 上 占有 一 个 连续 的 区 域 ， 这 样 做 是 为 了 在 二 者 之 间 取 得 平衡 。 
图 中 还 出 现 了 一 个 特殊 的 命名 空间 $f reeList， 用 于 跟踪 记录 不 再 使 用 的 区 段 (如 
被 删除 的 集合 或 索引 所 使 用 的 区 段 )。 命 名 空间 在 分 配 一 个 新 区 段 时 ， 会 先 搜索 空闲 
列表 ， 查 看 是 否 存在 合适 大 小 的 区 段 。 


B.5 内存 映 射 存 储 引 擎 


MongoDB 上 默认 的 (也 是 此 书写 作 时 唯一 支持 的 ) 存储 引擎 ， 是 一 个 内 存 映 射 引擎 。 
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服务 器 启动 时 ， 其 内 存 对 所 有 数据 文件 进行 映射 。 接 下 来 就 由 操作 系统 负责 将 数据 
刷新 到 磁盘 ， 以 及 管理 内 存 中 的 数据 页 交换 。 该 存储 引擎 有 以 下 几 个 重要 特性 : 


。 MongoDB 中 负责 管理 内 存 的 代码 数量 少 且 和 干净， 因为 大 部 分 相关 工作 已 交 由 操 
作 系 统 解决 ， 

。 MongoDB 服务 器 进程 占用 的 虚拟 内 存 通 常 很 大 ， 超 过 整个 数据 集 的 大 小 。 这 是 
可 以 接受 的 ， 因 为 操作 系统 会 处 理 内 存 中 的 常 驻 内 存 大 小 ; 

。 32 位 的 MongoDB 服务 器 在 使 用 内 存 方面 有 所 限制 ， 每 个 mongod 最 多 只 能 使 用 
约 2 GB 内 存 。 这 是 因为 所 有 的 数据 都 必须 是 在 32 位 下 可 寻 址 的 。 
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MongoDB 权 威 指南 (第 2 版 ) 


MongoDB 如 何 帮 你 管理 通过 Web 应 用 收集 的 海量 数据 呢 ? 通过 这 本 
经 典 著作 全 新 升级 版 的 权威 解读 ， 你 会 了 解 面向 文档 数据 库 的 诸多 
优点 ， 会 发 现 MongoDB 如 此 稳定 、 性 能 优越 甚至 能 够 无 限 水 平 扩展 
背后 的 原因 。 


本 书 是 一 本 广 受 好 评 的 MongoDB 权 威 著 作 。 新 版 本 对 上 一 版 进行 
了 全 面 扩 充 ， 可 作为 数据 库 开发 人 员 的 工作 指南 ， 也 可 作为 系统 管 
理 人 员 的 进 阶 指导 ， 还 可 供 项 目 中 其 他 成 员 了 解 MongoDB 使 用 。 
书 中 介绍 了 面向 文档 的 存储 方式 及 利用 MongoDB 的 无 模式 数据 模 
型 处 理 文档 、 集 合 和 多 个 数据 库 ， 讲 述 了 如 何 执行 基本 的 写 操 作 以 
及 各 种 复杂 的 条 件 查 询 ， 还 介绍 了 索引 、 聚 合 工具 以 及 其 他 高 级 查 
询 技术 ， 另 外 对 监控 、 安 全 和 身份 验证 、 备 份 和 恢复 、 水 平 扩展 
MongoDB 数 据 库 等 内 容 也 有 所 涉及 。 





主要 内 容 : 

和 MongoDB 核 心 概念 和 术语 

目 在 不 同 的 安全 等 级 和 速度 下 执行 基本 的 写 操作 

回 利用 限制 、 跳 过 等 选项 执行 复杂 的 查询 ， 并 对 查询 结果 进行 排序 
加 基于 MongoDB 设 计 应 用 程序 


回 聚合 数据 ， 包 括 统计 不 同 值 的 数量 ， 找 出 不 同 值 ， 给 文档 分 
组 ， 以 及 使 用 MapReduce 


目 收集 并 解释 有 关 集合 和 数据 库 的 统计 信息 

目 在 MongoDB 中 设置 副本 集 和 自动 故障 转移 

四 使 用 分 片 横向 扩展 数据 库 ， 并 学 习 这 样 做 对 应 用 的 影响 
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